6 votos

Una distribución no uniforme de la $p$-values...again

No parecen ser muchos de múltiples pruebas de hipótesis situaciones que resultan en una distribución no uniforme de la $p$-valores. Me gustaría describir un sencillo experimento numérico, y entender por qué no llevar a la 'espera' resultado.

Supongamos $X$ es una variable aleatoria Rayleigh (con forma de parámetros $b$). Se puede demostrar que la variable aleatoria $Y=X/\text{mean}(X)$ tiene el siguiente pdf:

$P(Y)=(\pi/2) Y \exp[(-\pi/4)Y^2]$,

que voy a llamar al SR (para la normalización de Rayleigh) de distribución. Tenga en cuenta que el SR distribución es independiente del parámetro $b$. Tenga en cuenta también que el SR distribución es equivalente a una distribución de Rayleigh con forma de parámetros $b=\sqrt{2/\pi}$.

El numéricos experimento es el siguiente: I generar 1000 Rayleigh números aleatorios con un valor arbitrario de $b$ y luego estandarizar estos números dividiendo cada número por el total de la media de la muestra. Yo, a continuación, realizar un KS de bondad de ajuste de prueba (donde la hipótesis nula es que la información que se extrae de un SR de distribución) y guardar el $p$-valor. El anterior se repite varias veces (por ejemplo, 1000 veces). Un histograma de la resultante de 1000 $p$-valores que se representa.

A continuación está el código de MATLAB. Pregunta: ¿por Qué las $p$-de valores no se encuentran uniformemente distribuidos?

SR=makedist('Rayleigh','b',sqrt(2/pi));

for p_counter=1:1000
    X=random('Rayleigh',11,1000,1);   
    Y=X/mean(X);
    [h_ks(p_counter),p_ks(p_counter)]=kstest(Y,'Alpha',0.01,'CDF',SR);
end

histogram(p_ks);

enter image description here

9voto

AdamSane Puntos 1825

Al escribir esto:

Supongamos que X es una variable aleatoria Rayleigh (con forma de parámetros b). Se puede demostrar que la variable aleatoria Y=X/media(X)

Estamos hablando de la división por la media de la población es $\mu_X$, una constante fija, dando a $Y_i=X_i/\mu_X$.

A continuación, en el experimento, se divide por el promedio de la muestra:

estandarizar estos números dividiendo cada número por el total de la media de la muestra.

Esto cambia la distribución. La distribución de $X_i/\bar{X}$ es no Rayleigh.

Más específicamente, creo que se debe tienden a ver menos grandes desviaciones de la Rayleigh cdf en esta estadística que ver con el que en realidad tiene el estándar de la distribución de Rayleigh, porque el presupuesto de la muestra va a producir una cocina equipada cdf que está "más cerca de los datos" de la de verdad; como resultado de dividir por estimar que produce un estándar de ecdf que se acerca más a la hipotética distribución que se obtendría si se divide por la población.

Como resultado de ello, me gustaría esperar usted debe conseguir un exceso de los grandes valores de p y un déficit de los pequeños.

Sus resultados son casi exactamente lo que yo había anticipado.

Este efecto es bien conocido; lo vemos en otras distribuciones. Es por eso que la prueba de Lilliefors* (la idea general es utilizar la prueba de Kolmogorov Smirnov estadístico de prueba pero con uno o más parámetros estimados) tiene menores valores críticos de la prueba de Kolmogorov-Smirnov (que no tiene parámetros estimados).

* (por desgracia, el texto del artículo de la Wikipedia en el enlace en la actualidad sugiere que la prueba de Lilliefors es sólo para la normalidad, pero también cubre la exponencial caso, como se puede ver en las "Fuentes" de la sección en la parte inferior del artículo)

En realidad se podría utilizar la exponencial de la versión de la prueba de Lilliefors [1] para la distribución de Rayleigh, ya que el cuadrado de un Rayleigh al azar de la variable aleatoria es exponencial, usted puede plaza de los datos originales y de prueba para exponencial. (En este caso se estaría dividiendo el cuadrado de datos por su medio, no el cuadrado de su escala de valores.)

Tenga en cuenta que el asintótica 5% valor crítico para la prueba de Kolmogorov-Smirnov es $1.36/\sqrt{n}$, mientras que para el Lilliefors cuando las pruebas de la exponencial es $1.077/\sqrt{n}$ (es decir, como he sugerido anteriormente, la división de una exponencial de la muestra por medio se produce una escala de ecdf que tiende a estar más cerca de la hipótesis de que si se divide por la población).

[Podría obtener los valores críticos (y/o los valores de p) para una prueba de Lilliefors uso de la simulación bajo la hipótesis nula. Esto es lo que Lilliefors que en realidad hizo, pero su simulación-tamaños eran bastante pequeñas (fue en la década de 1960, por lo que los medios informáticos eran limitadas) -- así que quizás quieras volver a realizar la simulación, especialmente si usted desea p-valores. Si los valores críticos son suficientes, no son más recientes/más precisa de las tablas disponibles]


Añadido en edit: Después de un poco de google, parece que la idea de utilizar la prueba de Lilliefors (para la exponencial) para la prueba de Rayleigh (después de la transformación) se discutió en Edgeman Y Scott (1987) [2].

[1] Lilliefors, H. (1969),
"En la prueba de Kolmogorov–Smirnov para la distribución exponencial con media desconocida",
Revista de la Asociación Americana de Estadística, Vol. 64 . p 387-389.

[2] R. L. Edgeman, de hormigón armado Scott (1987),
"El test de Lilliefors para las variables transformadas",
Revista brasileña de Probabilidad y Estadística, 1, 101 a 112.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X