Un paso en la ejecución de un ANOVA es el cálculo de la suma media de cuadrados (MS) para cada término (o fuente de variación) en el modelo. He estado tratando de entender qué es lo que estima esta suma de cuadrados. En otras palabras, ¿qué propiedad de la población están estimando los EM y cómo se relacionan entre sí?
Por ejemplo, consideremos un simple ANOVA de una vía con A como factor fijo. Se calcularía:
- $MS_{\text{between}}$
- $MS_{\text{within}}$
- $MS_{\text{total}}$
Ahora bien, algunos textos/libros que he consultado, afirman que el MS_between es una "medida de la varianza que incluye tanto el error como los efectos del factor". Un libro da las siguientes fórmulas $$ MS_\text{between} = (n \times \sigma^2_\text{between}) + \sigma^2_\text{within} $$ y $$ MS_\text{within} = \sigma^2_\text{within} $$
Sin embargo, esto implicaría que $MS_\text{between}$ debe ser siempre igual o mayor que el $MS_\text{within}$ . Esto no es cierto. Por ejemplo, la media de cada nivel de A podría ser igual, lo que dejaría $MS_\text{between}=0$ .
Pero además, conceptualmente hablando, ¿no implicaría la primera ecuación que $MS_\text{between} = MS_\text{total}$ ? Después de todo, parece estimar la varianza total debida tanto a la variación aleatoria como al efecto A. ¿Y no es esto lo que MS_total ya está estimando?
Preguntas:
- Si $MS_{\text{between}}$ es una "medida de la varianza que incluye tanto el error como los efectos de los factores" ¿por qué es diferente de la $MS_{\text{total}}$ ?
- ¿Y por qué puede $MS_{\text{between}}$ sea menor que $MS_{\text{within}}$ (dado que $MS_{\text{within is a part of $ MS_{texto{entre}$ según la primera fórmula anterior)
Cualquier aclaración será muy apreciada.