Supuesto de ANOVA normalidad/distribución normal de los residuos

Question

Supuesto de ANOVA normalidad/distribución normal de los residuos

Preguntado el 18 de Enero, 2011: Cuando se hizo la pregunta
242405 visitas: Cuantas visitas ha tenido la pregunta
3 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Le site La página de Wikipedia sobre el ANOVA enumera tres supuestos a saber:

Independencia de los casos: es un supuesto del modelo que simplifica el análisis estadístico.
Normalidad: las distribuciones de los residuos son normales.
La igualdad (u "homogeneidad") de las varianzas, llamada homocedasticidad...

El punto de interés aquí es el segundo supuesto. Varias fuentes enumeran el supuesto de forma diferente. Algunas dicen que la normalidad de los datos brutos, otras afirman que la de los residuos.

Surgen varias preguntas:

¿son la normalidad y la distribución normal de los residuos la misma persona (basándome en la entrada de la Wikipedia, diría que la normalidad es una propiedad, y no pertenece a los residuos directamente (pero puede ser una propiedad de los residuos (texto profundamente anidado entre paréntesis, raro))?
Si no es así, ¿qué suposición debería mantenerse? ¿Una? ¿Las dos?
si la suposición de que los residuos se distribuyen normalmente es la correcta, ¿estamos cometiendo un grave error al comprobar únicamente la normalidad del histograma de valores brutos?

Preguntado el 18 de Enero, 2011 por Issac Kelly

Answer 1

3 Respuestas

Answer 2

45voto

jldugger Puntos 7490

Supongamos que se trata de un efectos fijos modelo. (El consejo no cambia realmente para los modelos de efectos aleatorios, sólo se complica un poco más).

En primer lugar, distingamos los "residuos" de los "errores": los primeros son las diferencias entre las respuestas y sus valores predichos, mientras que los segundos son variables aleatorias del modelo. Con una cantidad de datos suficientemente grande y un buen procedimiento de ajuste, las distribuciones de los residuos se parecerán aproximadamente a las extraídas al azar de la distribución de errores (y, por tanto, darán buena información sobre las propiedades de esa distribución).

Los supuestos, por tanto, se refieren a la errores, no los residuos.

No, la normalidad (de las respuestas) y la distribución normal de los errores no son lo mismo . Supongamos que se mide el rendimiento de un cultivo con y sin aplicación de fertilizantes. En las parcelas sin fertilizante, el rendimiento oscila entre 70 y 130. En dos parcelas con fertilizante, el rendimiento osciló entre 470 y 530. La distribución de los resultados es fuertemente no normal: está agrupada en dos lugares relacionados con la aplicación de fertilizante. Supongamos además que los rendimientos medios son 100 y 500, respectivamente. Entonces todo Los residuos van de -30 a +30, por lo que se espera que los errores tengan una distribución comparable. Los errores podrían (o no) tener una distribución normal, pero obviamente se trata de una distribución completamente diferente.
La distribución de los residuos es importante porque reflejan los errores, que son la parte aleatoria del modelo. Tenga en cuenta también que los valores p se calculan a partir de los estadísticos F (o t) y éstos dependen de los residuos, no de los valores originales.
Si hay efectos significativos e importantes en los datos (como en este ejemplo), entonces usted puede estar cometiendo un "grave" error . Podrías, por suerte, hacer la determinación correcta: es decir, al mirar los datos en bruto verás una mezcla de distribuciones y esto puede parecer normal (o no). La cuestión es que lo que se ve no es relevante.

Los residuos del ANOVA no tienen que acercarse a la normalidad para ajustarse al modelo. Sin embargo, a menos que tenga una enorme cantidad de datos, la casi normalidad de los residuos es esencial para que los valores p calculados a partir de la distribución F sean significativos.

Respondido el 18 de Enero, 2011 por jldugger (7490 Puntos )

Answer 3

11voto

patfla Puntos 1

El ANOVA clásico de una vía puede verse como una extensión de la clásica "prueba T de 2 muestras" a una "prueba T de n muestras". Esto puede verse al comparar un ANOVA de una vía con sólo dos grupos con la prueba T clásica de 2 muestras.

Creo que te estás confundiendo porque (bajo los supuestos del modelo) los residuos y los datos brutos están distribuidos normalmente. Sin embargo, los datos brutos consisten en distribuciones normales con diferentes medios (a no ser que todos los efectos sean exactamente los mismos) pero el mismo de la variante. Por otro lado, los residuos tienen la misma distribución normal . Esto proviene del tercer supuesto de homocedasticidad.

Esto se debe a que la distribución normal es descomponible en una media y componentes de varianza. Si $Y_{ij}$ tiene una distribución normal con media $\mu_{j}$ y la varianza $\sigma^2$ puede escribirse como $Y_{ij}=\mu_{j}+\sigma\epsilon_{ij}$ donde $\epsilon_{ij}$ tiene una distribución normal estándar.

Mientras que el ANOVA se deriva del supuesto de normalidad, creo (pero no estoy seguro) que se puede sustituir por un supuesto de linealidad (a lo largo del Mejor estimador lineal insesgado (AZUL) líneas de estimación, donde "MEJOR" se interpreta como mínimo error cuadrático medio). Creo que esto consiste básicamente en sustituir la distribución de $\epsilon_{ij}$ con cualquier distribución mutuamente independiente (sobre todos los i y j ) que tiene media 0 y varianza 1.

En términos de mirar sus datos en bruto, debe parecer normal cuando se traza por separado para cada nivel de factor en su modelo . Esto significa trazar $Y_{ij}$ para cada j en un gráfico separado.

Respondido el 19 de Enero, 2011 por patfla (1 Puntos )

Answer 4

5voto

ashwnacharya Puntos 3144

En el caso de un solo sentido con $p$ grupos de tamaño $n_{j}$ : $F = \frac{SS_{b} / df_{b}}{SS_{w} / df_{w}}$ donde

$SS_{b} = \sum_{j=1}^{p}{n_{j} (M - M_{j}})^{2}$ et

$SS_{w} = \sum_{j=1}^{p}\sum_{i=1}^{n_{j}}{(y_{ij} - M_{j})^{2}}$

$F$ sigue un $F$ -distribución si $SS_{b} / df_{b}$ y $SS_{w} / df_{w}$ son independientes, $\chi^{2}$ -variables distribuidas con $df_{b}$ y $df_{w}$ grados de libertad, respectivamente. Este es el caso cuando $SS_{b}$ y $SS_{w}$ son la suma de variables normales independientes al cuadrado con media $0$ y la escala de igualdad. Así, $M-M_{j}$ y $y_{ij}-M_{j}$ debe tener una distribución normal.

$y_{i(j)} - M_{j}$ es el residuo del modelo completo ( $Y = \mu_{j} + \epsilon = \mu + \alpha_{j} + \epsilon$ ), $y_{i(j)} - M$ es el residuo del modelo restringido ( $Y = \mu + \epsilon$ ). La diferencia de estos residuos es $M - M_{j}$ .

EDITAR para reflejar la aclaración de @onestop: bajo $H_{0}$ todas las medias verdaderas de los grupos son iguales (y, por tanto, iguales a $M$ ), por lo que la normalidad de los residuos a nivel de grupo $y_{i(j)} - M_{j}$ implica la normalidad de $M - M_{j}$ también. No es necesario que los valores de la VD se distribuyan normalmente.

Respondido el 18 de Enero, 2011 por ashwnacharya (3144 Puntos )

Supuesto de ANOVA normalidad/distribución normal de los residuos

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Supuesto de ANOVA normalidad/distribución normal de los residuos

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: