27 votos

Interpretación de la diferencia entre la distribución lognormal y la ley de potencia (distribución de grados de la red)

En primer lugar, no soy estadístico. Sin embargo, he estado haciendo análisis estadístico de redes para mi doctorado.

Como parte del análisis de la red, he trazado una función de distribución acumulativa complementaria (FCDC) de los grados de la red. Lo que descubrí fue que, a diferencia de las distribuciones de red convencionales (por ejemplo, WWW), la distribución se ajusta mejor a una distribución lognormal. Intenté ajustarla a una ley de potencia y, utilizando los scripts de Matlab de Clauset et al, descubrí que la cola de la curva sigue una ley de potencia con un corte.

enter image description here

La línea de puntos representa el ajuste de la ley de potencia. La línea morada representa el ajuste log-normal. La línea verde representa el ajuste exponencial.

Lo que me cuesta entender es qué significa todo esto. He leído este artículo de Newman que aborda ligeramente este tema: http://arxiv.org/abs/cond-mat/0412004

Abajo está mi conjetura salvaje:

Si la distribución de grados sigue una distribución de ley de potencias, entiendo que significa que existe un apego preferencial lineal en la distribución de enlaces y grados de la red (efecto rich gets richer o proceso de Yules).

¿Estoy en lo cierto al decir que con la distribución lognormal que estoy presenciando, hay una fijación preferencial sublineal al principio de la curva y se vuelve más lineal hacia la cola, donde puede ajustarse mediante una ley de potencia?

Además, dado que una distribución logarítmica normal se produce cuando el logaritmo de la variable aleatoria (digamos X) se distribuye normalmente, ¿significa esto que en una distribución logarítmica normal hay más valores pequeños de X y menos valores grandes de X que los que tendría una variable aleatoria que siguiera una distribución de ley de potencias?

Y lo que es más importante, en lo que respecta a la distribución de los grados de la red, ¿sigue sugiriendo una red sin escalas un apego preferente log-normal? Mi instinto me dice que, dado que la cola de la curva puede ajustarse a una ley de potencia, puede concluirse que la red sigue presentando características de ausencia de escala.

15voto

Matt P Puntos 1349

Creo que será útil separar la pregunta en dos partes:

  1. ¿Cuál es la forma funcional de su distribución empírica? y
  2. ¿Qué implica esa forma funcional sobre el proceso de generación en su red?

La primera pregunta es estadística. Si has aplicado los métodos de Clauset et al. para ajustar la distribución de la ley de potencias y esos métodos le dieron una p>0.1 para el ajuste de la cola superior, entonces se permite decir que la cola superior (mirando su figura, esto es x15 más o menos) tiene una distribución power-law plausible. Si los métodos p<0.1 entonces no se puede decir que, incluso si el ajuste se ve bien a los ojos. Decidir si el ajuste log-normal es mejor significa básicamente hacer lo mismo. ¿Puedes rechazar ese modelo como proceso generador de los datos de distribución de grados que tienes? Si no, entonces puedes poner la log-normal en la categoría de "plausible".

Como pequeño apunte técnico, los grados son cantidades enteras, mientras que una distribución logarítmica normal requiere una variable continua, por lo que ambas no son realmente compatibles (a menos que sólo se esté hablando de x1 cuando la diferencia entre los números enteros y los valores reales para este tipo de preguntas se vuelve insignificante). Para realizar las estadísticas correctamente, es necesario escribir la función de probabilidad de una cantidad entera distribuida "log-normalmente", deducir sus estimadores y aplicarlos a los datos.

La segunda pregunta es la más difícil de las dos. Como han señalado algunas personas en los comentarios anteriores, hay muchos mecanismos que producen distribuciones de ley de potencias y el apego preferencial (en todas sus variaciones y gloria) es sólo uno de los muchos. Por lo tanto, observar una distribución power-law en tus datos (incluso una auténtica que pase las pruebas estadísticas necesarias) es pruebas insuficientes para concluir que el proceso generador fue la adhesión preferente. O, de forma más general, si tenemos un mecanismo A que produce un patrón X en los datos (por ejemplo, una distribución log-normal de grados en nuestra red). Observar el patrón X en sus datos no es una prueba de que sus datos hayan sido producidos por el mecanismo A. Los datos son consistentes con A, pero eso no significa que A sea el mecanismo correcto.

Para demostrar realmente que A es la respuesta, tienes que probar directamente sus supuestos mecanicistas y demostrar que también se cumplen para tu sistema, y preferiblemente también demostrar que otras predicciones del mecanismo también se cumplen en los datos. Sid Redner (véase la Figura 4 de este documento ), en el que demostró que, para las redes de citas, la hipótesis del apego preferencial lineal se cumple realmente en los datos.

Por último, el término "red sin escala" está sobrecargado en la bibliografía, por lo que recomiendo encarecidamente evitarlo. La gente lo utiliza para referirse a redes con distribuciones de grados de ley de potencia. y a las redes que crecen por unión preferencial (lineal). Pero como acabamos de explicar, estas dos cosas no son lo mismo, por lo que utilizar un único término para referirse a ambas es simplemente confuso. En tu caso, una distribución logarítmica normal es completamente incoherente con el mecanismo clásico de adhesión preferencial lineal, así que si decides que logarítmica normal es la respuesta a la pregunta 1 (en mi respuesta), entonces implicaría que tu red no está "libre de escala" en ese sentido. El hecho de que la cola superior esté 'bien' como distribución de ley de potencia no tendría sentido en ese caso, ya que siempre hay alguna porción de la cola superior de cualquier distribución empírica que pasará esa prueba (y la pasará porque la prueba pierde potencia cuando no hay muchos datos en los que basarse, que es exactamente lo que ocurre en la cola superior extrema).

3voto

shyam Puntos 4133

Qué buena pregunta. Estoy teniendo una conversación relacionada con esto asociado con una pregunta que hice en otro lugar de CrossValidated . Allí, pregunté si la distribución gamma era una buena distribución para usar en una simulación de una red social donde la probabilidad de vínculos es endógena a alguna característica continua de "popularidad" de los nodos. @NickCox me sugirió que utilizara en su lugar la distribución lognormal. Le respondí que la distribución lognormal tiene cierta justificación teórica como el proceso subyacente que describe la popularidad, porque la popularidad podría interpretarse como el producto de muchas variables aleatorias de valor positivo (por ejemplo, riqueza, ingresos, altura, destreza sexual, destreza en la lucha, coeficiente intelectual). Esto me parece más lógico que la justificación teórica de la ley de potencias y concuerda con los datos empíricos, que sugieren que la forma de la ley de potencias es demasiado inflexible para explicar la variación entre redes de la distribución de títulos. La lognormal, en comparación, tiene una forma muy flexible, con la moda aproximándose a cero para una varianza alta. Además, tiene sentido que la asimetría de la distribución de títulos aumente con la varianza debido al efecto de vinculación preferente.

En resumen, creo que la distribución lognormal es la que mejor se ajusta a sus datos porque describe mejor el proceso subyacente de formación de la distribución de grados que la ley de potencias o la distribución exponencial.

3voto

wireless Puntos 31

Llegar a este sitio después de contar mis distribuciones de burbujas y el uso de la ley de potencia para los datos de viscosidad.

Hojeando los conjuntos de datos de ejemplo en el artículo sobre la ley de potencias de Clauset et al. han presentado unos conjuntos de datos realmente horribles, lejos de los conjuntos de datos de la ley de potencias para apoyar su argumento. Sólo por sentido común, yo no habría intentado ajustar una función de ley de potencia a todo el rango de datos de la mayoría de ellos. Sin embargo, el comportamiento autoescalar en el mundo real puede ser válido en una parte de un sistema observado, pero romperse cuando alguna propiedad del sistema alcanza un límite físico o funcional.

Los siguientes artículos, muy amenos, se refieren al ajuste de curvas de crecimiento para ecólogos, con un buen debate sobre la ley de potencia y las distribuciones relacionadas, basadas en modelos de observación del comportamiento de la población.

El autor es mucho más pragmático que Clauset et al. Citando: "...si el objetivo es sólo un mejor fit y no se discuten escalas fuera de la ventana de escala del conjunto de datos, cualquier modelo puede suffice dado que produce un buen fit y no produce máximos o mínimos dentro de la ventana de escala estudiada." "A menudo uno se ve obligado a fitar el mismo modelo, que otros investigadores han aplicado a sus datos, para poder comparar los valores de los parámetros, pero uno puede hacer esto además de la aplicación de un modelo de mejor fitting o modelos con mejores formas esperadas, o ambos." Palabras reposadas.

Tjørve, E. (2003). Formas y funciones de las curvas especie-área: Una revisión de posibles modelos. Journal of Biogeography, 30(6), 827-835.

Tjørve, E. (2009). Shapes and functions of species-area curves (ii): A review of new models and parameterizations. Journal of Biogeography, 36(8), 1435-1445.

2voto

sbirch Puntos 331

Consulta este artículo de 2019: https://www.nature.com/articles/s41467-019-08746-5 En contra de lo que afirma gran parte de la ciencia de redes, la aplicación de sólidas herramientas estadísticas a casi 1.000 redes sociales, biológicas, técnicas, de transporte y de información demostró que una distribución logarítmica normal se ajustaba a los datos tan bien o mejor que las leyes de potencia.

1voto

tuxtu Puntos 1407

Los resultados anteriores muestran que la distribución de grados puede ser tanto power law como lognormal, lo que puede sugerir que las propiedades small world y scale free coexisten en la red estudiada. Para examinar si la red está libre de escala (con parámetro de escala constante) con unión preferente, suele ser necesario un diseño experimental. En el artículo de Sid Redner mencionado anteriormente, se utiliza la tasa de crecimiento para comprender el mecanismo de crecimiento. Mientras que Gallos, Song y Makse utilizan cajas para cubrir la red, y concluyen que la distribución de grados de la red sigue una distribución de ley de potencia, si NB(lB) ~ lB^-dB. O examinan las relaciones entre el coeficiente de conglomerado y el grado (si la relación satisface la ley de potencia). En caso contrario, se discute si las redes jerárquicas tienen propiedades tanto de red de mundo pequeño como de red libre de escala. (tecleando Fractal scale free, hay muchos artículos sugeridos por google).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X