13 votos

R: Anova y regresión lineal

Soy nuevo en estadística y estoy intentando comprender la diferencia entre ANOVA y regresión lineal. Estoy usando R para explorar esto. He leído varios artículos sobre por qué el ANOVA y la regresión son diferentes, pero siguen siendo lo mismo y cómo se pueden visualizar, etc. Creo que estoy bastante allí, pero un poco todavía falta.

Entiendo que el ANOVA compara la varianza dentro de los grupos con la varianza entre los grupos para determinar si existe o no una diferencia entre cualquiera de los grupos analizados. ( https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA )

Para la regresión lineal, he encontrado un post en este foro que dice que se puede probar lo mismo cuando probamos si b (pendiente) = 0. ( ¿Por qué se enseña/utiliza el ANOVA como si fuera una metodología de investigación diferente de la regresión lineal? )

Para más de dos grupos he encontrado un sitio web que dice:

La hipótesis nula es: $\text{H}_0: µ_1 = µ_2 = µ_3$

El modelo de regresión lineal es: $y = b_0 + b_1X_1 + b_2X_2 + e$

El resultado de la regresión lineal es, sin embargo, el intercepto para un grupo y la diferencia con este intercepto para los otros dos grupos. ( http://www.real-statistics.com/multiple-regression/anova-using-regression/ )

A mí me parece que en realidad se comparan los interceptos y no las pendientes

Otro ejemplo en el que se comparan los interceptos en lugar de las pendientes se puede encontrar aquí: ( http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/ )

Ahora me cuesta entender qué se compara realmente en la regresión lineal: ¿las pendientes, los interceptos o ambos?

0 votos

23voto

AdamSane Puntos 1825

¿parece que en realidad se comparan los interceptos y no las pendientes?

La confusión tiene que ver con el hecho de que hay que ser muy cuidadoso y aclarar a qué interceptos y pendientes nos referimos (¿intercepto de qué? ¿pendiente de qué?).

El papel de un coeficiente de una variable ficticia 0-1 en una regresión puede considerarse tanto como una pendiente y como una diferencia de interceptos, simplemente cambiando la forma de pensar sobre el modelo.

Simplifiquemos las cosas al máximo, considerando un caso de dos muestras.

Todavía podemos hacer ANOVA unidireccional con dos muestras, pero resulta ser esencialmente lo mismo que una prueba t de dos colas y dos muestras (el caso de varianza igual).

He aquí un diagrama de la situación de la población:

two group means as regression, population situation

Si $\delta = \mu_2-\mu_1$ el modelo lineal de la población es

$y = \mu_1 + \delta x + e$

para que cuando $x=0$ (que es el caso cuando estamos en el grupo 1), la media de $y$ est $\mu_1 + \delta \times 0 = \mu_1$ y cuando $x=1$ (cuando estamos en el grupo 2), la media de $y$ est $\mu_1 + \delta \times 1 = \mu_1 + \mu_2 - \mu_1 = \mu_2$ .

Es decir, el coeficiente de la pendiente ( $\delta$ en este caso) y la diferencia de medias (y se podría pensar en esas medias como interceptos) es la misma cantidad.

$ $

Para ayudar a concretar, he aquí dos ejemplos:

Group1:  9.5  9.8 11.8
Group2: 11.0 13.4 12.5 13.9

¿Qué aspecto tienen?

sample plot

¿Cómo es la prueba de diferencia de medias?

Como una prueba t:

    Two Sample t-test

data:  values by group
t = -5.0375, df = 5, p-value = 0.003976
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -4.530882 -1.469118
sample estimates:
mean in group g1 mean in group g2 
             9.9             12.9 

Como una regresión:

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   9.9000     0.4502  21.991 3.61e-06 ***
groupg2       3.0000     0.5955   5.037  0.00398 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.7797 on 5 degrees of freedom
Multiple R-squared:  0.8354,    Adjusted R-squared:  0.8025 
F-statistic: 25.38 on 1 and 5 DF,  p-value: 0.003976

Podemos ver en la regresión que el término de intercepción es la media del grupo 1, y el coeficiente del grupog2 (coeficiente de "pendiente") es la diferencia en las medias de los grupos. El valor p de la regresión es el mismo que el de la prueba t (0,003976).

0 votos

Muchas gracias por este ejemplo tan útil. Me acabo de dar cuenta de que todavía hay una pregunta abierta. No entiendo por qué la pendiente se denota como 21? ¿No se define la pendiente como m = delta Y / delta X?

2 votos

Lo es; pero $\Delta x = 1-0 = 1$ y $\Delta y = (\mu_1+\delta\times 1) - (\mu_1+\delta\times 0) = \delta = \mu_2-\mu_1$ y así $\Delta y/\Delta x = (\mu_2-\mu_1)/1 = \mu_2-\mu_1$ . En resumen, cuando se codifica como 0/1, la pendiente es la diferencia.

0 votos

¡¡¡+1 la ilustración gráfica de por qué la pendiente es igual a la diferencia de medias me ha ayudado mucho !!!

0voto

Chris Pick Puntos 76

ANOVA es un modelo de regresión específico con regresores categóricos. Sólo modela las medias de los distintos grupos, es decir, los interceptos. No hay parámetro de pendiente.

La regresión es una metodología general para estimar parámetros. Depende de ti si prefieres construir un modelo de regresión que pueda capturar la pendiente o si te conformas con las medias de grupo.

El ANOVA utiliza la misma metodología para estimar los parámetros y construir sobre la regresión alguna metodología estadística para probar específicamente si existen diferencias en las medias de los grupos.

Se construye el mismo modelo ANOVA utilizando la categoría como variable de agrupación

y ~ (1|G)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X