Es frecuente encontrar datos de redes sociales en forma binaria: personas frente a eventos a los que asisten, personas frente a clases a las que asisten, países frente a tratados que firman, etc. Una estrategia para analizar estos datos consiste en proyectar la matriz rectangular binaria $X$ en una matriz de un modo $P = (X * X')$ . A continuación, cada celda de la nueva matriz $A_{ij}$ tendría el número de veces que la persona $i$ asistió a un acto con otra persona $j$ . Pero, ¿es el número de veces que asisten conjuntamente a actos superior al que cabría esperar por azar?
Encontré un interesante documento sobre el tema y aborda directamente la cuestión. El autor propone este PMF, en el que la probabilidad de que la persona $i$ y persona $j$ asistir exactamente $C$ eventos:
$$\Pr(P_{ij}=C)=\frac{{E \choose C}{E-C \choose P_{ii}-C}{E-P_{ii}\choose P_{jj}-C}}{{E \choose P_{ii}}{E \choose P_{jj}} }$$
En una red razonablemente pequeña, no hay dificultad para calcularlo. Pero tengo una red con miles de nodos. Las cifras del numerador y el denominador son enormes. Tan grandes que R sólo devuelve Inf y obtengo un resultado sin sentido.
Lo que creo que debo hacer es encontrar una manera de aproximar este PMF de alguna manera. También estaba considerando simplemente escribir algún código que se aproxima a la distribución a través de la simulación. ¿Hay alguna forma mejor de aproximar esta distribución? ¿Existe alguna distribución conocida que se aproxime mucho (léase, lo suficiente) a la distribución teórica presentada?
1 votos
¿Podrías utilizar la aproximación de Stirling y trabajar en espacio logarítmico?