12 votos

¿A qué pregunta responde el ANOVA?

Quiero aprender ANOVA. Antes de empezar a aprender cómo funciona el algoritmo (qué cálculos hay que hacer) y por qué funciona, primero me gustaría saber qué problema resolvemos realmente con el ANOVA, o qué respuesta intentamos dar. En otras palabras: ¿Qué es la entrada y qué es la salida del algoritmo?

Entiendo lo que usamos como entrada. Tenemos un conjunto de números. Cada número viene con valores de una o más variables categóricas (también conocidas como "factores"). Por ejemplo:

+------------+------------+-------+
|   factor 1 |   factor 2 | value |
+------------+------------+-------+
|     "A"    |     "a"    |  1.0  |
|     "A"    |     "a"    |  2.4  |
|     "A"    |     "b"    |  0.3  |
|     "A"    |     "b"    |  7.4  |
|     "B"    |     "a"    |  1.2  |
|     "B"    |     "a"    |  8.4  |
|     "B"    |     "b"    |  0.4  |
|     "B"    |     "b"    |  7.2  |
+------------+------------+-------+

¿Es correcto decir que el ANOVA calcula el valor p de la hipótesis nula que afirma que no hay efecto de los factores sobre la media de los valores? En otras palabras, ¿damos los datos anteriores al algoritmo y como resultado obtenemos el valor p de la hipótesis nula?

Si es así, ¿qué medida utilizamos realmente para calcular el valor p? Por ejemplo, podemos decir que, dada la hipótesis nula, M puede ser tan alta como la observada (o incluso más) sólo por azar en el 1% de los casos. ¿Qué es M?

¿No investigamos también los factores en el ANOVA por separado? ¿Puede el ANOVA decir que el factor_1 tiene un efecto pero el factor_2 no? ¿Puede el ANOVA decir que para un factor dado los valores correspondientes a es valor "A", "B" y "C" son estadísticamente indistinguibles (tienen la misma media, por ejemplo) pero el valor "D" tiene un efecto?

6voto

icelava Puntos 548

ANOVA significa "Análisis de la Varianza". No es de extrañar que analice la varianza.

Seamos un poco más explícitos. Sus observaciones presentarán cierta varianza. Si agrupa sus observaciones por su factor 1, la varianza dentro de los grupos definida por el factor 1 será menor que la varianza global. El factor 1 "explica la varianza".

Sin embargo, esto no es suficiente para concluir que el factor 1 tiene realmente una relación con sus observaciones... porque la agrupación por cualquier cosa explicará" la varianza. Lo bueno es que sabemos cuánta varianza se explicará bajo la hipótesis nula de que su factor, de hecho, no tiene nada que ver con sus observaciones. Esta cantidad de varianza explicada bajo la hipótesis nula se describe mediante un $F$ distribución.

Por lo tanto, la estrategia en el ANOVA consiste en estimar la varianza global y la varianza dentro de los grupos (utilizando sumas de cuadrados) y tomando los cocientes de estas varianzas estimadas. Este ratio es el $F$ estadística. A continuación, comparamos esta $F$ al valor crítico de la $F$ de la distribución en una prueba unilateral, lo que da lugar a su $p$ valor. El número de niveles del factor va en un parámetro del $F$ distribución (más niveles del factor explicarán más varianza bajo la hipótesis nula), y el número de observaciones y el número de niveles va en el otro. Esta pregunta anterior puede ser útil.

(¿Por qué una prueba unilateral? Porque, como en el caso anterior, cualquier agrupación explicará parte de la varianza, por lo que sólo tiene sentido comprobar si su factor explica una grande cantidad de variación).

El Sección "Ejemplo motivador" de la entrada de Wikipedia proporciona algunas ilustraciones muy bonitas de factores que explican muy poco, algo y mucho de la varianza global.

El ANOVA de dos vías y las interacciones, como en su ejemplo, así como el ANCOVA, son entonces sólo generalizaciones sobre este tema. En cada caso, investigamos si la adición de alguna variable explicativa explica una cantidad significativamente grande de varianza.

Una vez que tengamos un conjunto significativo de $F$ podemos examinar si las observaciones de ciertos niveles de factores son significativamente diferentes de otras en pruebas post-hoc . Por ejemplo, D puede ser diferente de A, B y C, pero éstas no pueden ser significativamente diferentes entre sí. Lo normal es utilizar $t$ pruebas para esto. Esta pregunta anterior puede ser útil, así como este .

0 votos

Así, utilizamos todo el número para calcular la varianza global $V$ y a continuación calculamos las varianzas de cada grupo $v_i$ y finalmente combinamos todas estas varianzas (probablemente también con los tamaños de los grupos) para obtener la "medida": $M = M (V, v_1, v_2, ..., v_k, n_1, n_2, ..., n_k)$ . A continuación, calculamos la probabilidad de que M sea tan grande o incluso mayor bajo el supuesto de que la hipótesis nula es correcta.

0 votos

Exactamente. $M$ es su $F$ estadística. Esta es la fórmula real.

0 votos

Para ser honesto, todavía estoy un poco confundido. Por lo que he entendido, el ANOVA devuelve el valor p de la hipótesis nula. Pero por otro lado, del "Ejemplo Motivador" de Wikipedia se puede concluir que ANOVA nos da el mejor factor (o una combinación de factores), que "explica" mejor los datos. Así, en el ejemplo el ANOVA dice que la raza es el mejor factor para explicar el peso de los perros.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X