3 votos

ANOVA: ¿Qué se estima con los cuadrados medios?

Un paso en la ejecución de un ANOVA es el cálculo de la suma media de cuadrados (MS) para cada término (o fuente de variación) en el modelo. He estado tratando de entender qué es lo que estima esta suma de cuadrados. En otras palabras, ¿qué propiedad de la población están estimando los EM y cómo se relacionan entre sí?

Por ejemplo, consideremos un simple ANOVA de una vía con A como factor fijo. Se calcularía:

  1. $MS_{\text{between}}$
  2. $MS_{\text{within}}$
  3. $MS_{\text{total}}$

Ahora bien, algunos textos/libros que he consultado, afirman que el MS_between es una "medida de la varianza que incluye tanto el error como los efectos del factor". Un libro da las siguientes fórmulas $$ MS_\text{between} = (n \times \sigma^2_\text{between}) + \sigma^2_\text{within} $$ y $$ MS_\text{within} = \sigma^2_\text{within} $$

Sin embargo, esto implicaría que $MS_\text{between}$ debe ser siempre igual o mayor que el $MS_\text{within}$ . Esto no es cierto. Por ejemplo, la media de cada nivel de A podría ser igual, lo que dejaría $MS_\text{between}=0$ .

Pero además, conceptualmente hablando, ¿no implicaría la primera ecuación que $MS_\text{between} = MS_\text{total}$ ? Después de todo, parece estimar la varianza total debida tanto a la variación aleatoria como al efecto A. ¿Y no es esto lo que MS_total ya está estimando?

Preguntas:

  1. Si $MS_{\text{between}}$ es una "medida de la varianza que incluye tanto el error como los efectos de los factores" ¿por qué es diferente de la $MS_{\text{total}}$ ?
  2. ¿Y por qué puede $MS_{\text{between}}$ sea menor que $MS_{\text{within}}$ (dado que $MS_{\text{within is a part of $ MS_{texto{entre}$ según la primera fórmula anterior)

Cualquier aclaración será muy apreciada.

4voto

carlos Puntos 91

Respuesta a la Q1

MS_total y MS_between estiman cantidades de población que incluyen tanto el error ( $\varepsilon$ ) y el factor ( $\beta$ ), pero los efectos de los errores y de los factores se combinan de forma diferente.

MS_total estimaciones $\frac{an - n}{an - 1}Var(\beta) + Var(\varepsilon)$

Estimaciones de MS_between $nVar(\beta) + Var(\varepsilon)$

MS_within estimaciones $Var(\varepsilon)$

Por lo tanto, MS_total y MS_between estiman cantidades de población diferentes.

La cantidad de población que estima MS_total debe ser siempre menor que la cantidad de población que estima MS_between. Esto se debe a que an-n es siempre menor que an-1, por lo que MS_total sólo incluirá una fracción de Var( $\beta$ ) mientras que MS_between incluirá n veces Var( $\beta$ ).

Respuesta a la Q2

La cantidad de población que MS_between estima debe ser siempre mayor o igual que la cantidad de población que MS_within estima (bajo los supuestos de independencia).

El valor de MS_between calculado a partir de los datos de la muestra en el ANOVA es a veces menor que el MS_error calculado a partir de los datos de la muestra debido al error de muestreo aleatorio.

Otros comentarios

La pregunta considera un "ANOVA de una vía con A como factor fijo" pero luego da componentes de varianza estimados para un modelo de factor aleatorio. Las respuestas anteriores son para un modelo de factor aleatorio con el mismo número de muestras en cada grupo, pero el mismo principio es válido para el modelo de factor fijo.

La pregunta también considera que los valores calculados de los cuadrados medios del ANOVA son los mismos que las cantidades de la población estimadas por los cuadrados medios. La manipulación de las medias de los grupos para obtener un MS_entre calculado menor que el MS_error calculado no supone una contradicción con las ecuaciones anteriores.

No he encontrado ninguna recomendación para calcular y utilizar el MS_total en ninguno de los textos de estadística que utilizo, y en ninguno de ellos se considera qué es lo que estima el MS_total, si es que lo hace. Yo mismo lo deduje de la siguiente manera:

$MS_{total} = \frac{SS_{total}}{an-1} = \frac{SS_{within}}{an-1} + \frac{SS_{between}}{an-1} = \frac{a(n-1)}{an-1}MS_{within} + \frac{a-1}{an-1}MS_{between}$

lo que significa que

MS_total estimaciones $\frac{a(n-1)}{an-1}Var(\varepsilon) + \frac{a-1}{an-1}nVar(\beta) + \frac{a-1}{an-1}Var(\varepsilon)$

que da

MS_total estimaciones $\frac{an - n}{an - 1}Var(\beta) + Var(\varepsilon)$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X