8 votos

¿Cómo puede la prueba F rechazar la hipótesis nula mientras que la prueba KS no lo hace?

Supongamos que tengo dos conjuntos de datos, $\mathbf{a}$ y $\mathbf{b}$ . Quiero comprobar si los dos conjuntos de datos son diferentes de forma estadísticamente significativa.

Para calcular la prueba F, tomo el cociente de las varianzas de cada conjunto de datos y lo comparo con los valores F basados en algún nivel de significación (por ejemplo $\alpha = 0.05$ ) y el número de grados de libertad. Si el valor de F que he calculado está fuera de los límites de $1\pm\alpha$ entonces se rechaza la hipótesis nula (es decir, los dos conjuntos de datos son diferentes de forma estadísticamente significativa).

Para calcular la prueba KS, encuentro la ECDF de cada conjunto de datos y la distancia vertical máxima entre las ECDF para calcular el estadístico D. De forma similar a la prueba F, si el estadístico D es mayor que un valor crítico, se rechaza la hipótesis nula (es decir, los dos conjuntos de datos son diferentes de forma estadísticamente significativa).

Mi intuición es que las pruebas deberían dar, en general, resultados similares. Si algo es estadísticamente significativo, debería serlo para ambas pruebas, ¿no? Tal vez esta intuición sea errónea. Pero, al menos, pensaba que la prueba KS era más sensible que la prueba F. Por lo tanto, si la prueba F rechaza la hipótesis nula, pensé que seguro la prueba KS también rechazaría la nula.

Pero he encontrado muchos casos en los que esto no es cierto. ¡Tengo algunos ejemplos en los que la prueba F resulta en el rechazo de la hipótesis nula mientras que la prueba KS no lo hace!

Se agradece cualquier explicación de por qué puede ser esto.

11voto

Dave Puntos 76

La prueba F examina específicamente las diferencias de varianza y no necesita ser sensible a otras diferencias como la media. El KS tiene que ser sensible a cualquier tipo de diferencia distributiva, ya sea la media, la varianza o la multimodalidad.

Piense en la prueba F como en un especialista que será excelente para encontrar diferencias de varianza a expensas de que quizás se pierdan otras diferencias. Si todo lo que quiere es comprobar las diferencias de varianza, utilice la prueba especializada en diferencias de varianza. Si su pregunta es más amplia, si hay alguna diferencia entre las poblaciones, entonces KS sería la prueba más apropiada. Un inconveniente del KS es que no le dirá cuál es esa diferencia, mientras que una prueba F señalaría una diferencia en las varianzas (como una prueba t señalaría una diferencia en las medias).

Tienes razón en que si tus poblaciones tienen varianzas diferentes y F encuentra eso mientras KS no lo encuentra, eso es un error tipo II de KS.

10voto

jgradim Puntos 1143

Las pruebas de significación consisten en definir una región de rechazo y rechazar si los datos están en esa región. El tamaño de la región es su $\alpha$ valor. Si dos regiones tienen formas diferentes, aunque una sea más pequeña que la otra, puede haber lugares que estén dentro de la más pequeña pero no en la más grande.

La respuesta de Dave explica que el KS comprueba muchos atributos diferentes, como la media, la varianza y la multimodalidad. Supongamos que limitamos nuestra atención a la media y la varianza. Entonces podemos representar la muestra en un gráfico bidimensional, en el que, por ejemplo, las diferencias de la media son la dimensión horizontal y la diferencia de la varianza es la vertical:

Illustration of rejection regions

El $F$ -La región de rechazo de la prueba KS (azul) son dos franjas horizontales en este espacio: si la diferencia de varianza es demasiado positiva, o demasiado negativa, rechaza la nulidad. La región de rechazo de la prueba KS (verde) es (con alguna simplificación) un anillo: cualquier cosa demasiado alejada del origen en cualquier dirección será rechazada. Podemos (de nuevo, con alguna simplificación), considerar que cada uno tiene un "radio", y cualquier cosa fuera de ese radio resulta en el rechazo del nulo. Pero para el $F$ -prueba, sólo la distancia vertical de la $x$ -se considera el eje, mientras que la distancia al origen se considera para la prueba KS.

Si ambos tienen el mismo $\alpha$ Entonces, como el KS contempla ambas dimensiones, su radio tiene que ser mayor. Así que si su muestra tiene una pequeña diferencia en la media, y una diferencia en la varianza que es ligeramente mayor que la $F$ -de la prueba, entonces estará dentro del radio de la KS.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X