15 votos

¿Por qué es el F-test tan sensible para la suposición de normalidad?

¿Por qué el F-test para la diferencia en la varianza tan sensible a la suposición de una distribución normal, incluso para grandes $N$?

He tratado de buscar en la web y visitó la biblioteca, pero ninguno de los que dieron buenas respuestas. Se dice que la prueba es muy sensible por la violación de la hipótesis de distribución normal, pero no entiendo por qué. ¿Alguien tiene una buena respuesta para esto?

35voto

AdamSane Puntos 1825

Supongo que te refieres a la prueba F para el cociente de varianzas cuando se prueba un par de muestras para la igualdad de varianzas (porque esa es la que es sensible a la normalidad)

Si las muestras provienen de distribuciones normales, la varianza de la muestra tiene una escala de chi cuadrado de distribución

Imagine que en lugar de los datos extraídos de las distribuciones normales, que había de distribución que era más pesado de cola de lo normal. Entonces usted conseguiría demasiados grandes variaciones en relación a la escala de distribución de la chi cuadrado, y la probabilidad de que la varianza de la muestra en el extremo derecho de la cola es muy sensible a las colas de la distribución a partir de la cual los datos fueron extraídos=. (También habrá demasiados pequeñas variaciones, pero el efecto es un poco menos pronunciada)

Ahora bien, si ambas muestras son extraídas de que el más pesado de cola de la distribución, la más grande de la cola en el numerador, se producirá un exceso de los grandes valores de F y el de mayor tamaño de la cola en el denominador, se producirá un exceso de pequeño que los valores de F (y viceversa para la cola izquierda)

Ambos de estos efectos tienden a conducir al rechazo de una prueba de dos colas, incluso a pesar de que ambas muestras tienen la misma varianza. Esto significa que cuando la verdadera distribución es más pesado de cola de lo normal, la significación real de los niveles tienden a ser más altos de lo que queremos.

Por el contrario, el dibujo muestra un ejemplo de un encendedor de cola de la distribución se produce una distribución de la muestra variaciones que tiene muy poco de cola -- varianza de los valores tienden a ser más "sutil" de los que obtiene con los datos de distribuciones normales. De nuevo, el impacto es más fuerte en el extremo de la cola superior de la inferior de la cola.

Ahora bien, si ambas muestras son extraídas de que el encendedor de cola de la distribución, esto se traduce en un exceso de los valores de F cerca de la mediana y muy pocos en la cola (real de los niveles de significación será menor de lo deseado).

Estos efectos no parecen necesariamente reducir mucho con muestras de mayor tamaño; en algunos casos parece empeorar.

Por la forma de parcial de ilustración, aquí se 10000 varianzas (para $n=10$) para el normal, $t_5$ y distribuciones uniformes, escalado a tener la misma media en $\chi^2_9$:

enter image description here

Es un poco difícil ver el extremo de la cola, ya que es relativamente pequeño en comparación con el pico (y para el $t_5$ de las observaciones en la cola se extienden de una manera justa pasado donde hemos trazado), pero podemos ver algo de el efecto de la distribución de la varianza. Es quizás más instructivo para transformar estos por la inversa de la chi-cuadrado cdf,

enter image description here

que en el caso normal se ve uniforme (como debe ser), en el t-caso tiene un gran pico en la parte superior de la cola (y un pequeño pico en la parte inferior de la cola) y en el uniforme caso es más de una colina gusta, pero con un amplio pico de alrededor de 0.6 a 0.8 y los extremos a los que tienen menos probabilidad de lo que deberían si estábamos de muestreo de distribuciones normales.

Estos a su vez producen los efectos sobre la distribución de la proporción de las variaciones de los que he descrito antes. De nuevo, para mejorar nuestra capacidad para ver el efecto en las colas (que puede ser difícil de ver), me he transformado por la inversa de la cdf (en este caso para el $F_{9,9}$ distribución):

enter image description here

En una prueba de dos colas, nos fijamos en los dos colas de la distribución F; los dos colas están sobre-representados cuando el dibujo de la $t_5$ y ambos están insuficientemente representados cuando el dibujo de un uniforme.

Habría muchos otros casos a investigar para un estudio completo, pero por lo menos te da una idea del tipo y la dirección del efecto, así como la forma en que surge.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X