¿Cómo es que todas son versiones del mismo método estadístico básico?
Respuestas
¿Demasiados anuncios?Considere que todas ellas pueden escribirse como una ecuación de regresión (quizás con interpretaciones ligeramente diferentes a sus formas tradicionales).
Regresión: $$ Y=\beta_0 + \beta_1X_{\text{(continuous)}} + \varepsilon \\ \text{where }\varepsilon\sim\mathcal N(0, \sigma^2) $$
Prueba t: $$ Y=\beta_0 + \beta_1X_{\text{(dummy code)}} + \varepsilon \\ \text{where }\varepsilon\sim\mathcal N(0, \sigma^2) $$
ANOVA: $$ Y=\beta_0 + \beta_1X_{\text{(dummy code)}} + \varepsilon \\ \text{where }\varepsilon\sim\mathcal N(0, \sigma^2) $$
La regresión prototípica se conceptualiza con $X$ como variable continua. Sin embargo, la única suposición que se hace realmente sobre $X$ es que es un vector de constantes conocidas. Puede ser una variable continua, pero también puede ser un código ficticio (es decir, un vector de $0$ 's & $1$ que indica si una observación es miembro de un grupo indicado (por ejemplo, un grupo de tratamiento). Así, en la segunda ecuación $X$ podría ser ese código ficticio, y el valor p sería el mismo que el de una prueba t en su forma más tradicional.
Sin embargo, el significado de las betas sería diferente en este caso. En este caso, $\beta_0$ sería la media del grupo de control (para el que las entradas de la variable ficticia serían $0$ '), y $\beta_1$ sería la diferencia entre la media del grupo de tratamiento y la media del grupo de control.
Ahora, recuerde que es perfectamente razonable tener / ejecutar un ANOVA con sólo dos grupos (aunque una prueba t sería más común), y tiene los tres conectados. Si prefieres ver cómo funcionaría si tuvieras un ANOVA con 3 grupos; sería: $$ Y=\beta_0 + \beta_1X_{\text{(dummy code 1)}} + \beta_2X_{\text{(dummy code 2)}} + \varepsilon \\ \text{where }\varepsilon\sim\mathcal N(0, \sigma^2) $$ Tenga en cuenta que cuando tiene $g$ grupos, tiene $g-1$ códigos ficticios para representarlos. El grupo de referencia (normalmente el grupo de control) se indica teniendo $0$ 's para todo códigos ficticios (en este caso, los códigos ficticios 1 y 2). En este caso, no querrá interpretar los valores p de las pruebas t para estas betas que vienen con la salida estadística estándar - sólo indican si el grupo indicado difiere del grupo de control cuando se evalúa de forma aislada . Es decir, estas pruebas no son independientes. En su lugar, querrá evaluar si las medias de los grupos varían construyendo una tabla ANOVA y realizando una prueba F. Por si sirve de algo, las betas se interpretan igual que con la versión de la prueba t descrita anteriormente: $\beta_0$ es la media del grupo de control / referencia, $\beta_1$ indica la diferencia entre las medias del grupo 1 y el grupo de referencia, y $\beta_2$ indica la diferencia entre el grupo 2 y el grupo de referencia.
A la luz de los comentarios de @whuber más abajo, estos también pueden representarse mediante ecuaciones matriciales:
$$ \bf Y=\bf X\boldsymbol\beta + \boldsymbol\varepsilon $$ Representado de esta manera, $\bf Y$ & $\boldsymbol\varepsilon$ son vectores de longitud $N$ y $\boldsymbol\beta$ es un vector de longitud $p+1$ . $\bf X$ es ahora una matriz con $N$ filas y $(p+1)$ columnas. En una regresión prototípica se tiene $p$ continuo $X$ y el intercepto. Así, su $\bf X$ se compone de una serie de vectores columna uno al lado del otro, uno por cada $X$ con una columna de $1$ 's en el extremo izquierdo para la intercepción.
Si está representando un ANOVA con $g$ grupos de esta manera, recuerde que tendría $g-1$ variables ficticias que indican los grupos, con el grupo de referencia indicado por una observación que tiene $0$ en cada variable ficticia. Al igual que en el caso anterior, seguiría teniendo un intercepto. Así, $p=g-1$ .
Todos ellos pueden escribirse como casos particulares del modelo lineal general.
La prueba t es un caso de ANOVA de dos muestras. Si se eleva al cuadrado el estadístico de la prueba t, se obtiene el correspondiente $F$ en el ANOVA.
Un modelo ANOVA es básicamente un modelo de regresión en el que los niveles de los factores están representados por ficticio (o indicador ) variables .
Así que si el modelo para una prueba t es un subconjunto del modelo ANOVA y ANOVA es un subconjunto del modelo de regresión múltiple, la propia regresión (y otras cosas además de la regresión) es un subconjunto del modelo lineal general que amplía la regresión a una especificación del término de error más general que el caso habitual de regresión (que es "independiente" e "igual-varianza"), y a la multivariante $Y$ .
He aquí un ejemplo que muestra la equivalencia de las dos muestras ordinarias (de igual varianza) $t$ y una prueba de hipótesis en un modelo de regresión, realizado en R (los datos reales parecen estar emparejados, por lo que este no es realmente un análisis adecuado):
> t.test(extra ~ group, var.equal=TRUE, data = sleep)
Two Sample t-test
data: extra by group
t = -1.8608, df = 18, p-value = 0.07919
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.363874 0.203874
sample estimates:
mean in group 1 mean in group 2
0.75 2.33
Obsérvese el valor p de 0,079 anterior. Aquí está el anova de una vía:
> summary(aov(extra~group,sleep))
Df Sum Sq Mean Sq F value Pr(>F)
group 1 12.48 12.482 3.463 0.0792
Residuals 18 64.89 3.605
Ahora la regresión:
> summary(lm(extra ~ group, data = sleep))
(se han eliminado algunos resultados)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.7500 0.6004 1.249 0.2276
group2 1.5800 0.8491 1.861 0.0792 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.899 on 18 degrees of freedom
Multiple R-squared: 0.1613, Adjusted R-squared: 0.1147
F-statistic: 3.463 on 1 and 18 DF, p-value: 0.07919
Compare el valor p en la fila "grupo2", y también el valor p de la prueba F en la última fila. Para una prueba de dos colas, son los mismos y ambos coinciden con el resultado de la prueba t.
Además, el coeficiente del "grupo2" representa la diferencia de las medias de los dos grupos.
Esta respuesta que publiqué antes es algo relevante, pero esta pregunta es algo diferente.
Puede pensar en las diferencias y similitudes entre los siguientes modelos lineales: $$ \begin{bmatrix} Y_1 \\ \vdots \\ Y_n \end{bmatrix} = \begin{bmatrix} 1 & x_1 \\ 1 & x_2 \\ 1 & x_3 \\ \vdots & \vdots \\ 1 & x_n \end{bmatrix} \begin{bmatrix} \alpha_0 \\ \alpha_1 \end{bmatrix} + \begin{bmatrix} \varepsilon_1 \\ \vdots \\ \vdots \\ \varepsilon_n \end{bmatrix} $$ $$ \begin{bmatrix} Y_1 \\ \vdots \\ Y_n \end{bmatrix} = \begin{bmatrix} 1 & 0 & 0 & \cdots & 0 \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & 0 & 0 & \cdots & 0 \\ \hline 0 & 1 & 0 & \cdots & 0 \\ \vdots & \vdots & \vdots & & \vdots \\ 0 & 1 & 0 & \cdots & 0 \\ \hline 0 & 0 & 1 & \cdots & 0 \\ \vdots & & & & \vdots \\ \vdots & & & & \vdots \end{bmatrix} \begin{bmatrix} \alpha_0 \\ \vdots \\ \alpha_k \end{bmatrix} + \begin{bmatrix} \varepsilon_1 \\ \vdots \\ \vdots \\ \varepsilon_n \end{bmatrix} $$
El anova es similar a una prueba t para la igualdad de medias bajo el supuesto de varianzas desconocidas pero iguales entre los tratamientos. Esto se debe a que en el ANOVA el MSE es idéntico a la varianza agrupada utilizada en la prueba t. Hay otras versiones de la prueba t, como la de varianzas desiguales y la prueba t de pares. Desde este punto de vista, la prueba t puede ser más flexible.