Quiero aprender ANOVA. Antes de empezar a aprender cómo funciona el algoritmo (qué cálculos hay que hacer) y por qué funciona, primero me gustaría saber qué problema resolvemos realmente con el ANOVA, o qué respuesta intentamos dar. En otras palabras: ¿Qué es la entrada y qué es la salida del algoritmo?
Entiendo lo que usamos como entrada. Tenemos un conjunto de números. Cada número viene con valores de una o más variables categóricas (también conocidas como "factores"). Por ejemplo:
+------------+------------+-------+
| factor 1 | factor 2 | value |
+------------+------------+-------+
| "A" | "a" | 1.0 |
| "A" | "a" | 2.4 |
| "A" | "b" | 0.3 |
| "A" | "b" | 7.4 |
| "B" | "a" | 1.2 |
| "B" | "a" | 8.4 |
| "B" | "b" | 0.4 |
| "B" | "b" | 7.2 |
+------------+------------+-------+
¿Es correcto decir que el ANOVA calcula el valor p de la hipótesis nula que afirma que no hay efecto de los factores sobre la media de los valores? En otras palabras, ¿damos los datos anteriores al algoritmo y como resultado obtenemos el valor p de la hipótesis nula?
Si es así, ¿qué medida utilizamos realmente para calcular el valor p? Por ejemplo, podemos decir que, dada la hipótesis nula, M puede ser tan alta como la observada (o incluso más) sólo por azar en el 1% de los casos. ¿Qué es M?
¿No investigamos también los factores en el ANOVA por separado? ¿Puede el ANOVA decir que el factor_1 tiene un efecto pero el factor_2 no? ¿Puede el ANOVA decir que para un factor dado los valores correspondientes a es valor "A", "B" y "C" son estadísticamente indistinguibles (tienen la misma media, por ejemplo) pero el valor "D" tiene un efecto?