Me encontró por primera vez el ANOVA cuando yo era un estudiante de Maestría de la universidad de Oxford en el año 1978. Enfoques modernos, mediante la enseñanza continua y las variables categóricas juntos en el modelo de regresión múltiple, hacen que sea difícil para los más jóvenes estadísticos para entender lo que está pasando. Por lo que puede ser útil para volver a tiempos más simples.
En su forma original, el ANOVA es un ejercicio de aritmética mediante el cual se rompe la suma de cuadrados total en piezas asociados con los tratamientos, bloques, las interacciones, lo que sea. En un ajuste equilibrado, las sumas de cuadrados con un significado intuitivo (como SSB y SST) sumar el total ajustada a la suma de los cuadrados. Todo esto funciona gracias a Cochran Teorema. El uso de Cochran, usted puede calcular los valores esperados de estos términos en el marco del habitual hipótesis nula, y la F de estadísticas de flujo a partir de ahí.
Como un bono, una vez que usted comience a pensar acerca de Cochran y las sumas de cuadrados, tiene sentido ir cortando y picando su tratamiento de las sumas de cuadrados mediante contrastes ortogonales. Cada entrada en la tabla ANOVA debe tener una interpretación de interés para el estadístico y el rendimiento de una hipótesis comprobable.
Recientemente escribí una respuesta , en donde la diferencia entre la MAMÁ y el ML métodos se levantó. La pregunta se convirtió en la estimación de modelos de efectos aleatorios. En este punto, el tradicional ANOVA enfoque totalmente a las partes con la estimación de máxima verosimilitud, y las estimaciones de los efectos no son los mismos. Cuando el diseño está desequilibrada, usted no recibe el mismo F estadísticas.
De vuelta en el día, cuando los estadísticos quiere calcular los efectos aleatorios de split-plot o de medidas repetidas de los diseños, el de efectos aleatorios varianza se calcula a partir de la media de los cuadrados de la tabla ANOVA. Así que si usted tiene una parcela con varianza $\sigma^2_p$ y la varianza residual es $\sigma^2$, usted podría tener que el valor esperado del error cuadrático medio para las parcelas es$\sigma^2 + n\sigma_p^2$, $n$ el número de divisiones en la trama. Se establece la cuadrada de la media aritmética igual a sus expectativas y resolver para $\hat{\sigma_b^2}$. El análisis de VARIANZA de los rendimientos de un método de momentos estimador del efecto aleatorio de la varianza. En la actualidad, tendemos a resolver este tipo de problemas con modelos de efectos mixtos y los componentes de varianza se obtienen a través de la estimación de máxima verosimilitud o REML.
El análisis de VARIANZA como tal, no es un método de los momentos del procedimiento. Se convierte en la división de la suma de cuadrados (o, más en general, de una forma cuadrática de la respuesta) en los componentes de rendimiento significativas hipótesis. De ella depende en gran medida de la normalidad ya que queremos que las sumas de los cuadrados de los que han de chi-cuadrado de las distribuciones de la F pruebas de trabajar.
El de Máxima verosimilitud es el marco más general y se aplica a situaciones como modelos lineales generalizados donde las sumas de cuadrados no se aplican. Algunos programas de software (como R) invitar a la confusión mediante la especificación de anova de los métodos de cociente de probabilidad de las pruebas con asintótica chi-cuadrado de distribuciones. Uno puede justificar el uso del término "anova", pero estrictamente hablando, la teoría detrás de ella es diferente.