Processing math: 100%

61 votos

Supuesto de ANOVA normalidad/distribución normal de los residuos

Le site La página de Wikipedia sobre el ANOVA enumera tres supuestos a saber:

  • Independencia de los casos: es un supuesto del modelo que simplifica el análisis estadístico.
  • Normalidad: las distribuciones de los residuos son normales.
  • La igualdad (u "homogeneidad") de las varianzas, llamada homocedasticidad...

El punto de interés aquí es el segundo supuesto. Varias fuentes enumeran el supuesto de forma diferente. Algunas dicen que la normalidad de los datos brutos, otras afirman que la de los residuos.

Surgen varias preguntas:

  • ¿son la normalidad y la distribución normal de los residuos la misma persona (basándome en la entrada de la Wikipedia, diría que la normalidad es una propiedad, y no pertenece a los residuos directamente (pero puede ser una propiedad de los residuos (texto profundamente anidado entre paréntesis, raro))?
  • Si no es así, ¿qué suposición debería mantenerse? ¿Una? ¿Las dos?
  • si la suposición de que los residuos se distribuyen normalmente es la correcta, ¿estamos cometiendo un grave error al comprobar únicamente la normalidad del histograma de valores brutos?

45voto

jldugger Puntos 7490

Supongamos que se trata de un efectos fijos modelo. (El consejo no cambia realmente para los modelos de efectos aleatorios, sólo se complica un poco más).

En primer lugar, distingamos los "residuos" de los "errores": los primeros son las diferencias entre las respuestas y sus valores predichos, mientras que los segundos son variables aleatorias del modelo. Con una cantidad de datos suficientemente grande y un buen procedimiento de ajuste, las distribuciones de los residuos se parecerán aproximadamente a las extraídas al azar de la distribución de errores (y, por tanto, darán buena información sobre las propiedades de esa distribución).

Los supuestos, por tanto, se refieren a la errores, no los residuos.

  1. No, la normalidad (de las respuestas) y la distribución normal de los errores no son lo mismo . Supongamos que se mide el rendimiento de un cultivo con y sin aplicación de fertilizantes. En las parcelas sin fertilizante, el rendimiento oscila entre 70 y 130. En dos parcelas con fertilizante, el rendimiento osciló entre 470 y 530. La distribución de los resultados es fuertemente no normal: está agrupada en dos lugares relacionados con la aplicación de fertilizante. Supongamos además que los rendimientos medios son 100 y 500, respectivamente. Entonces todo Los residuos van de -30 a +30, por lo que se espera que los errores tengan una distribución comparable. Los errores podrían (o no) tener una distribución normal, pero obviamente se trata de una distribución completamente diferente.

  2. La distribución de los residuos es importante porque reflejan los errores, que son la parte aleatoria del modelo. Tenga en cuenta también que los valores p se calculan a partir de los estadísticos F (o t) y éstos dependen de los residuos, no de los valores originales.

  3. Si hay efectos significativos e importantes en los datos (como en este ejemplo), entonces usted puede estar cometiendo un "grave" error . Podrías, por suerte, hacer la determinación correcta: es decir, al mirar los datos en bruto verás una mezcla de distribuciones y esto puede parecer normal (o no). La cuestión es que lo que se ve no es relevante.

Los residuos del ANOVA no tienen que acercarse a la normalidad para ajustarse al modelo. Sin embargo, a menos que tenga una enorme cantidad de datos, la casi normalidad de los residuos es esencial para que los valores p calculados a partir de la distribución F sean significativos.

11voto

patfla Puntos 1

El ANOVA clásico de una vía puede verse como una extensión de la clásica "prueba T de 2 muestras" a una "prueba T de n muestras". Esto puede verse al comparar un ANOVA de una vía con sólo dos grupos con la prueba T clásica de 2 muestras.

Creo que te estás confundiendo porque (bajo los supuestos del modelo) los residuos y los datos brutos están distribuidos normalmente. Sin embargo, los datos brutos consisten en distribuciones normales con diferentes medios (a no ser que todos los efectos sean exactamente los mismos) pero el mismo de la variante. Por otro lado, los residuos tienen la misma distribución normal . Esto proviene del tercer supuesto de homocedasticidad.

Esto se debe a que la distribución normal es descomponible en una media y componentes de varianza. Si Yij tiene una distribución normal con media μj y la varianza σ2 puede escribirse como Yij=μj+σϵij donde ϵij tiene una distribución normal estándar.

Mientras que el ANOVA se deriva del supuesto de normalidad, creo (pero no estoy seguro) que se puede sustituir por un supuesto de linealidad (a lo largo del Mejor estimador lineal insesgado (AZUL) líneas de estimación, donde "MEJOR" se interpreta como mínimo error cuadrático medio). Creo que esto consiste básicamente en sustituir la distribución de ϵij con cualquier distribución mutuamente independiente (sobre todos los i y j ) que tiene media 0 y varianza 1.

En términos de mirar sus datos en bruto, debe parecer normal cuando se traza por separado para cada nivel de factor en su modelo . Esto significa trazar Yij para cada j en un gráfico separado.

5voto

ashwnacharya Puntos 3144

En el caso de un solo sentido con p grupos de tamaño nj : F=SSb/dfbSSw/dfw donde

SSb=pj=1nj(MMj)2 et

SSw=pj=1nji=1(yijMj)2

F sigue un F -distribución si SSb/dfb y SSw/dfw son independientes, χ2 -variables distribuidas con dfb y dfw grados de libertad, respectivamente. Este es el caso cuando SSb y SSw son la suma de variables normales independientes al cuadrado con media 0 y la escala de igualdad. Así, MMj y yijMj debe tener una distribución normal.

yi(j)Mj es el residuo del modelo completo ( Y=μj+ϵ=μ+αj+ϵ ), yi(j)M es el residuo del modelo restringido ( Y=μ+ϵ ). La diferencia de estos residuos es MMj .

EDITAR para reflejar la aclaración de @onestop: bajo H0 todas las medias verdaderas de los grupos son iguales (y, por tanto, iguales a M ), por lo que la normalidad de los residuos a nivel de grupo yi(j)Mj implica la normalidad de MMj también. No es necesario que los valores de la VD se distribuyan normalmente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X