29 votos

Interpretación de betas cuando hay varias variables categóricas

Entiendo el concepto de que la $\hat\beta_0$ es la media cuando la variable categórica es igual a 0 (o es el grupo de referencia), dando al final de la interpretación que el coeficiente de regresión es la diferencia en la media de las dos categorías. Incluso con >2 categorías supongo que cada una de las $\hat\beta$ explica la diferencia entre esta categoría y la de referencia.

Pero, ¿qué pasa si más variables introducidas en el modelo multivariable? Ahora, ¿qué es la intersección decir, dado que no tiene sentido que sea la media de la referencia de dos variables categóricas? Un ejemplo sería si el género (M(ref)/F) y la raza (blanco(ref)/negro) fueron en un modelo. Es el $\hat\beta_0$ la media de sólo los hombres blancos? ¿Cómo interpretar cualquiera de las otras posibilidades?

Como una nota aparte: ¿el contraste de las declaraciones de servir como una forma de método para la investigación de la modificación del efecto? O simplemente para ver el efecto ($\hat\beta$) en los diferentes niveles?

34voto

Sean Hanley Puntos 2428

Tienes razón acerca de la interpretación de las betas cuando hay una sola variable categórica con $k$ niveles. Si hay múltiples variables categóricas (y no había término de interacción), el intercepto ($\hat\beta_0$) es la media del grupo que constituyen el nivel de referencia para ambos (todas) las variables categóricas. Usando tu ejemplo, considere el caso donde no hay interacción, a continuación, las betas son:

  • $\hat\beta_0$: la media de los hombres blancos
  • $\hat\beta_{\rm Female}$: la diferencia entre la media de las mujeres y la media de los machos
  • $\hat\beta_{\rm Black}$: la diferencia entre la media de los negros y de la media de los blancos

También podemos pensar en esto en términos de cómo calcular los diferentes grupo de medios:
\begin{align} &\bar x_{\rm White\ Males}& &= \hat\beta_0 \\ &\bar x_{\rm White\ Females}& &= \hat\beta_0 + \hat\beta_{\rm Female} \\ &\bar x_{\rm Black\ Males}& &= \hat\beta_0 + \hat\beta_{\rm Black} \\ &\bar x_{\rm Black\ Females}& &= \hat\beta_0 + \hat\beta_{\rm Female} + \hat\beta_{\rm Black} \end{align}

Si usted tenía un término de interacción, sería añadido al final de la ecuación de mujeres negras. (La interpretación de un término de interacción es bastante complicada, pero me paseo por aquí: la Interpretación del término de interacción.)


Actualización: Para aclarar mis puntos, vamos a considerar una lata ejemplo, codificado en R.

d = data.frame(Sex  =factor(rep(c("Male","Female"),times=2), levels=c("Male","Female")),
               Race =factor(rep(c("White","Black"),each=2),  levels=c("White","Black")),
               y    =c(1, 3, 5, 7))
d
#      Sex  Race y
# 1   Male White 1
# 2 Female White 3
# 3   Male Black 5
# 4 Female Black 7

enter image description here

Los medios de y de estas variables categóricas son:

aggregate(y~Sex,  d, mean)
#      Sex y
# 1   Male 3
# 2 Female 5
## i.e., the difference is 2
aggregate(y~Race, d, mean)
#    Race y
# 1 White 2
# 2 Black 6
## i.e., the difference is 4

Podemos comparar las diferencias entre estos medios de los coeficientes de un modelo ajustado:

summary(lm(y~Sex+Race, d))
# ...
# Coefficients:
#             Estimate Std. Error  t value Pr(>|t|)    
# (Intercept)        1   3.85e-16 2.60e+15  2.4e-16 ***
# SexFemale          2   4.44e-16 4.50e+15  < 2e-16 ***
# RaceBlack          4   4.44e-16 9.01e+15  < 2e-16 ***
# ...
# Warning message:
#   In summary.lm(lm(y ~ Sex + Race, d)) :
#   essentially perfect fit: summary may be unreliable

La cosa es reconocer acerca de esta situación es que, sin un término de interacción, estamos suponiendo que las líneas paralelas. Por lo tanto, el Estimate de la (Intercept) es la media de los varones blancos. El Estimate para SexFemale es la diferencia entre la media de las mujeres y la media de los machos. El Estimate para RaceBlack es la diferencia entre la media de los negros y de la media de los blancos. De nuevo, debido a que un modelo sin término de interacción se supone que los efectos son estrictamente aditivo (las líneas son estrictamente paralelas), la media de mujeres negras es entonces la media de los varones blancos, además de la diferencia entre la media de las mujeres y la media de los varones, además de la diferencia entre la media de los negros y de la media de los blancos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X