7 votos

¿Qué indica un error en ANOVA?

Cuando me encontré con ANOVA, el instructor habló sobre df(Error), ss(Error), etc. ¿Qué indican estos términos de error? ¿Los términos de error difieren para ANOVA de dos vías con variables dependientes e independientes?

introducir descripción de la imagen aquí

8voto

AdamSane Puntos 1825

Muchos modelos se basan en un modelo para la variable dependiente de la forma "media de la población + variación alrededor de la media". De hecho, las pruebas t, ANOVA de una vía y dos vías, la regresión múltiple son todos ejemplos de esto.

En el caso de un ANOVA de dos vías con interacción, el modelo (en términos más simples) se ve así:

$$y_{ijk}=μ_{ij}+ε_{ijk},$$

- es decir, los valores $k$ en el nivel $i$ del factor "fila" y nivel $j$ del factor "columna" (las IVs) consisten en una media de población para esa combinación de $i$ y $j$ y la variación individual alrededor de esa media (ya que la observación $k$ en la combinación de factores $i,j$ no será igual a la media de la población para ese subgrupo).

Típicamente descomponemos la media para el ANOVA de dos vías en efectos principales e interacción: $μ_{ij}=μ+α_i+β_j+ (αβ)_{ij}$, dando:

$$y_{ijk}=μ+α_i+β_j+ (αβ)_{ij}+ε_{ijk},$$

de modo que una observación consiste en un efecto medio general (poblacional), más un efecto "fila" (poblacional) (representando desviaciones de esa media general debido al factor de fila), un efecto de "columna" correspondiente, un efecto de interacción (una desviación adicional para la combinación de factores particular) y la variación individual de la media.

Volviendo a la forma anterior: $y_{ijk}=μ_{ij}+ε_{ijk},$ se asume que la variación individual alrededor de la media de la población en los niveles de los factores $i$ y $j$ es un término aleatorio de varianza constante con media cero, llamado "término de error".

No necesariamente consiste en errores reales en el sentido ordinario de la palabra; las razones de esto son en parte históricas. Es simplemente una descripción de cómo las observaciones variarán de las medias de celda de la población. Ese término de error es una parte importante del modelo. Sin embargo, puede incluir cosas que normalmente pensaríamos como error (como error de medición en la DV). [Se asume que las IVs se miden sin error, por cierto, en la regresión y ANOVA habituales. Esto generalmente no es un problema para los factores en ANOVA, especialmente en lo que respecta a los experimentos.]

En la inferencia de la teoría normal (los intervalos de confianza habituales y las pruebas de hipótesis), se asume que el término de error está distribuido normalmente.


Ahora, ¿por qué tenemos $\text{SS(error)}$ y $\text{df(error)}$ y así sucesivamente?

La varianza de los $y$'s alrededor de la media general ($\mu$) se descompone en partes explicables como la variación de las medias de celda alrededor de la media de la población (variación de $\mu_{ij}$ alrededor de $\mu$) y la variación aleatoria alrededor de las medias de celda (variabilidad no explicada en los datos). La primera se descompone aún más en términos de varianza para efectos de filas, efectos de columnas e interacción.

Ahora, si realmente no hay efectos de filas, columnas o interacción a nivel poblacional, esas varianzas para las filas, columnas e interacción serán diferentes de cero debido a la variación alrededor de la media general; serán relativamente pequeñas, y el tamaño típico es una función de la varianza del término de error ($\text{var}(\varepsilon)=\sigma^2$) e incluso podemos calcular qué distribución deberían tener las estimaciones de estos componentes de la varianza de los y. Pero si realmente hay efectos de filas, columnas e interacción, esos componentes de la varianza de los y serán típicamente más grandes y tendrán una distribución diferente.

Entonces, para investigar el tamaño de un efecto (digamos el efecto de interacción) en un ANOVA, comparamos el tamaño del valor implícito de $\sigma^2$ que resultaría si el efecto fuera cero con el de los residuos del modelo ajustado (el que estima $\text{var}(\epsilon)$ directamente). La razón de estas dos estimaciones de varianza (la estadística F) será (más o menos) cercana a 1 si el efecto es cero, y tiende a ser más grande de lo contrario.

Hacemos la prueba F para ver si esa razón es mayor de lo que razonablemente podría explicarse por variación aleatoria (sin un efecto real, sin interacción, por ejemplo). Si lo es, rechazaríamos la hipótesis nula de que el efecto particular es cero.

Este tipo de cálculo - usando relaciones de estimaciones de varianzas para decidir si los efectos que relacionan las medias de las celdas son mayores que cero - se llama análisis de varianza.

Por lo tanto, términos como $\text{SS(error)}$ y $\text{df(error)}$ son centrales para descubrir si hay evidencia de que los factores (IV) que estamos analizando realmente cambian la media de la variable dependiente o no.

0 votos

No puedo entender completamente tu respuesta. Glen, no soy muy bueno en estadística, pero sé solo lo básico de estadística. ¿Podrías explicarme exactamente qué significa eso dentro, entre y error en esa imagen (esto es para un ANOVA repetido)? Sé cómo aplicar estos en fórmulas, pero no pude entender el significado de estos tres términos.

0 votos

Hasta donde puedo ver, la nueva pregunta ni siquiera se trata del mismo análisis: el original era un ANOVA de dos vías, lo cual implica efectos fijos, no medidas repetidas, ahora estás diciendo que quieres una respuesta para medidas repetidas de dos vías (¿creo? Tu comentario no es claro). No creo que esta pregunta sea lo suficientemente clara como para responder en absoluto, pero hasta donde puedo ver, entendí mal lo que estabas pidiendo; quizás necesite borrar mi respuesta porque ni siquiera estoy seguro de lo que buscas. Por favor haz una pregunta clara.

0 votos

No elimines tu respuesta. El análisis no importa aquí, solo quiero saber por qué se está describiendo ese término de error aquí??

4voto

AusTravel Puntos 6

Solo quería agregar información a la excelente respuesta de @Glen_b (+1). Quizás el OP ya lo sepa, pero aún así aclararía un poco la terminología según mi conocimiento/comprensión.

$SS(error)$ representa suma de cuadrados del error (residual) y generalmente se denomina $SSE$. En consecuencia, $df(error)$ representa grados de libertad para el error. Creo que es diferente de los grados de libertad de regresión. También entiendo que este término, en general, es diferente de los grados de libertad como un parámetro para las distribuciones de probabilidad. Además, podría ser útil mencionar la existencia de grados de libertad efectivos (tanto para la regresión como para el error/residual).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X