6 votos

¿Puedo usar la prueba de razón de verosimilitud para comparar dos muestras extraídas de distribuciones de ley de potencia?

Tengo que comparar dos muestras grandes ($N = 10^{6}$) de los discretos datos extraídos de ley de potencia distribuciones para evaluar si son significativamente diferentes. Yo no puedo hacer eso por medio de una de dos muestras de prueba de Kolmogorov-Smirnov debido a que mis datos son discretos. Me preguntaba si podía hacer algo diferente. En particular, me gustaría aplicar la probabilidad de relación de la prueba de la siguiente manera.

Supongamos que tengo dos grandes muestras tomadas de dos de ley de potencia distribuciones, $s_{1} \sim p(\alpha)$$s_{2} \sim p(\alpha)$, y quiero evaluar si la diferencia entre la estimación de la cola de los exponentes, $\hat{\alpha}_{1}$$\hat{\alpha}_{2}$, es estadísticamente significativa --- es decir, si hay una diferencia significativa entre las dos muestras.

Mi idea era construir un likelihood-ratio test

$\Lambda = -2\times l(H_{0}|s_{1},s_{2}) + 2\times \left[l(H_{1}|s_{1}) + l(H_{1}|s_{2})\right],$

donde $l(H_{0}|s_{1},s_{2})$, es decir, la log-verosimilitud del modelo nulo, es el logaritmo de la probabilidad de que el conjunto de muestras $s_{1}, s_{2}$, mientras que el $l(H_{1}|s_{1}) + l(H_{1}|s_{2})$, es decir, la log-verosimilitud del modelo alternativo, es la suma de el registro de las probabilidades de las muestras $s_{1}$$s_{2}$.

A continuación, me gustaría comparar las estadísticas de prueba $\Lambda$ $\chi^{2}$ distribución con grados de libertad $\mathtt{df} = 2 - 1 = 1$, debido a que en el modelo alternativo necesito para estimar dos parámetros (uno para la muestra), mientras que en el modelo nulo, ya que las muestras se agruparon, necesito para la estimación de un solo parámetro.

¿Tiene sentido? O si alguien revocar mi M. Sc. en las Estadísticas? :)

De lo contrario, puede alguien sugerir métodos para comparar dos muestras grandes ($N = 10^6$) de los discretos datos extraídos de ley de potencia de las distribuciones?

Gracias!

3voto

Zachary Blumenfeld Puntos 1543

Lo que usted tiene ciertamente funciona. Otra opción, que sólo requieren para ejecutar únicamente las no agrupadas modelo (donde cálculo de $\hat\alpha_1$$\hat\alpha_2$) es el test Wald con el lineal hpothesis

$$ H_o: \alpha_1 - \alpha_2 =0 $$ $$ H_1: \alpha_1 - \alpha_2 \neq 0 $$

Si el tamaño de la muestra es grande, entonces este método puede ser más eficiente desde un punto de vista computacional (ya que usted sólo tiene que ejecutar un modelo en lugar de dos). Aparte de que tanto el cociente de probabilidad y pruebas de Wald son asintóticamente equivalente.

3voto

AdamSane Puntos 1825

Yo no puedo hacer eso por medio de la prueba de Kolmogorov-Smirnov debido a que mis datos son discretos,

Bueno, en realidad se podría utilizar una Komogorov-Smirnov sobre datos discretos como siempre que:

(i) no utilizar la distribución de la estadística de prueba que supone que los datos son continuos. Usted podría, por ejemplo, ejecutar una permutación o prueba de aleatorización de los datos que usted tiene, y usted podría utilizar la K-S de la estadística para que, si quería. Esto podría lidiar con el impacto del discreto en la distribución de la estadística de prueba.

(ii) usted está preparado para lidiar con las consecuencias de ignorar el discreto (inferior a la nominal nivel de significación y la correspondiente reducción en el poder) y el uso de las tablas de todos modos. Con un tamaño de muestra de un millón, que en realidad no puede ser un problema, siempre se puede usar la simulación para obtener una idea de su significado real se encuentra. De ella depende en gran medida de "cómo discretos" la distribución discreta.


Dicho esto, una prueba de razón de verosimilitud tiene perfecto sentido, también (pero, ¿cómo saber para asegurarse de que tiene una ley de potencia?).

De verdad se procede exactamente como usted ha dicho. En muestras pequeñas, usted podría tratar de llegar a la exacta pequeña muestra de la distribución de algunos de transformación simple de la LRT, pero con una gran muestra de que no hay razón para molestarse con todo eso.

(Si su distribución iban a tener más parámetros que el que usted menciona, en la formulación que le dan, los parámetros adicionales se supone constante a través de muestras.)

Sugiero tomar una mirada en el papel por Clauset, Shalizi y Newman (2009) [1], que a mi recuerdo cubre continuos y discretos de energía de las leyes y analiza tanto la prueba de Kolmogorov-Smirnov y el coeficiente de probabilidad de las pruebas.

[1] Aaron Clauset, Cosma Rohilla Shalizi, M. E. J. Newman (2009),
"Ley de potencia de distribución en datos empíricos,"
SIAM Review 51, 661-703
(también arXiv:0706.1062v2)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X