18 votos

Comprobación de los supuestos del ANOVA

Hace unos meses publiqué una pregunta sobre las pruebas de homocedasticidad en R en SO, e Ian Fellows me respondió (parafrasearé su respuesta muy libremente):

Las pruebas de homocedasticidad no son una buena herramienta para comprobar la bondad del ajuste del modelo. Con muestras pequeñas, no se tiene suficiente poder para detectar desviaciones de la homocedasticidad, mientras que con muestras grandes se tiene "mucho poder", por lo que es más probable que se detecten incluso desviaciones triviales de la igualdad.

Su gran respuesta fue como una bofetada en mi cara. Solía comprobar los supuestos de normalidad y homocedasticidad cada vez que ejecutaba el ANOVA.

¿Cuál es, en su opinión, la mejor práctica a la hora de comprobar los supuestos del ANOVA?

18voto

Eric Davis Puntos 1542

En contextos aplicados, suele ser más importante saber si cualquier violación de los supuestos es problemática para la inferencia.

Las pruebas de suposición basadas en pruebas de significación rara vez son de interés en muestras grandes, porque la mayoría de las pruebas inferenciales son robustas a violaciones leves de las suposiciones.

Una de las buenas características de las evaluaciones gráficas de los supuestos es que centran la atención en el grado de violación y no en la importancia estadística de cualquier violación.

Sin embargo, también es posible centrarse en los resúmenes numéricos de sus datos que cuantifican el grado de violación de los supuestos y no la significación estadística (por ejemplo, los valores de asimetría, los valores de curtosis, la relación entre las varianzas de los grupos más grandes y más pequeños, etc.). También se pueden obtener errores estándar o intervalos de confianza sobre estos valores, que se reducirán con muestras más grandes. Esta perspectiva es coherente con la idea general de que la significación estadística no es equivalente a la importancia práctica.

1 votos

+1 por la gran respuesta que envuelve todo. La forma de aplicar los procedimientos numéricos mencionados se describe muy bien y de forma aplicable en el libro Using Multivariate Statistics de Tabachnik y Fidell (para SPSS y SAS): amazon.com/Using-Multivariate-Statistics-Barbara-Tabachnick/dp/ (Pero vea las Erratas en la página web acompañada)

0 votos

Bueno, creo que la mayoría de las veces los resúmenes como la asimetría y la curtosis tienen poco valor, su variación muestral es demasiado grande. Sin embargo, se podría considerar la posibilidad de sustituirlos por L_skewness y L-kurtosis.

0 votos

@kjetilbhalvorsen Supongo que depende del tipo de tamaños de muestra con los que sueles trabajar. En mi experiencia, los gráficos y las estadísticas de asimetría son muy útiles para entender la distribución de los datos.

16voto

icelava Puntos 548

Un par de gráficos suelen ser mucho más ilustrativos que el valor p de una prueba de normalidad u homocedasticidad. Represente las variables dependientes observadas frente a las variables independientes. Representar las observaciones frente a los ajustes. Representar los residuos frente a las variables independientes. Investigue cualquier cosa que parezca extraña en estos gráficos. Si algo no parece extraño, no me preocuparía por una prueba significativa de un supuesto.

0 votos

Es un buen consejo la mayoría de las veces, pero ¿qué pasa con los grandes conjuntos de datos, en los que no es factible examinar todos los datos manualmente?

1 votos

@dsimcha También depende del tamaño de la muestra por grupo. Se sabe, por ejemplo, que cuando las muestras son de igual tamaño la prueba t es robusta frente a la desviación del supuesto de homocedasticidad; si $n_1\neq n_2$ entonces la probabilidad de un error de tipo I será $<\alpha$ si el mayor $\sigma^2$ se asocia a la muestra más grande, y viceversa . Ver Zar, JH Análisis bioestadístico (4ª Ed., Prentice Hall, 1998) para más referencias.

2 votos

@dsimcha re grandes conjuntos de datos: depende de lo que se entienda por "grandes". ¿Muchas observaciones? Utiliza buenos gráficos (boxplot, jittered dotplots, sunflowerplots). ¿Muchas variables independientes? Sí, tiene razón... Pero si tiene tantas variables independientes que no puede trazar la VD contra cada una de las variables independientes, yo cuestionaría el uso de un ANOVA en absoluto - parece que puede ser difícil de interpretar en cualquier caso. Algunos enfoques inteligentes de aprendizaje automático pueden ser mejores (Brian D. Ripley: "Parafraseando provocativamente, 'el aprendizaje automático es la estadística menos la comprobación de modelos y supuestos'").

5voto

palmsey Puntos 3799

Hay algunas guías web muy buenas para comprobar los supuestos del ANOVA y qué hacer si fallan. Aquí es uno. Este es otra.

Esencialmente su ojo es el mejor juez, así que haga algunas análisis exploratorio de datos . Eso significa que hay que trazar los datos: los histogramas y los gráficos de caja son una buena forma de evaluar la normalidad y la homocedasticidad. Y recuerde que el ANOVA es robusto a las violaciones menores de estos.

5voto

dan90266 Puntos 609

Estoy de acuerdo con otros en que las pruebas de significación de los supuestos son problemáticas.

Me gusta tratar este problema haciendo un único gráfico que exponga todos los supuestos del modelo necesarios para tener un error de tipo I preciso y un error de tipo II bajo (alta potencia). Para el caso de ANOVA con 2 grupos (prueba t de dos muestras) este gráfico es la inversa normal de la función de distribución acumulativa empírica (ECDF) estratificada por grupo (véase el comentario del gráfico QQ en un post anterior). Para que la prueba t funcione bien, las dos curvas deben ser líneas rectas paralelas. Para la $k$ -el problema de la muestra de ANOVA en general tendría $k$ líneas rectas paralelas.

Los métodos semiparamétricos (de rango), como las pruebas de Wilcoxon y Kruskal-Wallis, hacen muchas menos suposiciones. El logit de la ECDF debe ser paralelo para que las pruebas de Wilcoxon-Kruskal-Wallis tengan la máxima potencia (el error de tipo I nunca es un problema para ellas). La linealidad es no necesario. Las pruebas de rango hacen suposiciones sobre cómo se relacionan las distribuciones de los diferentes grupos, pero no hacen suposiciones sobre la forma de ninguna distribución.

4voto

Christopher Aden Puntos 1020

Los gráficos QQ son una buena forma de detectar la no normalidad.

Para la homocedasticidad, pruebe la prueba de Levene o la de Brown-Forsythe. Ambas son similares, aunque la BF es un poco más robusta. Son menos sensibles a la no normalidad que la prueba de Bartlett, pero aun así, he descubierto que no son las más fiables con tamaños de muestra pequeños.

Gráfico Q-Q

Prueba Brown-Forsythe

Prueba de Levene

0 votos

Los gráficos de distribución relativa (o, por ejemplo, la comparación con la distribución normal) podrían ser un buen sustituto, ya que su interpretación podría ser más clara para los principiantes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X