Tienes razón acerca de la interpretación de las betas cuando hay una sola variable categórica con $k$ niveles. Si hay múltiples variables categóricas (y no había término de interacción), el intercepto ($\hat\beta_0$) es la media del grupo que constituyen el nivel de referencia para ambos (todas) las variables categóricas. Usando tu ejemplo, considere el caso donde no hay interacción, a continuación, las betas son:
- $\hat\beta_0$: la media de los hombres blancos
- $\hat\beta_{\rm Female}$: la diferencia entre la media de las mujeres y la media de los machos
- $\hat\beta_{\rm Black}$: la diferencia entre la media de los negros y de la media de los blancos
También podemos pensar en esto en términos de cómo calcular los diferentes grupo de medios:
\begin{align}
&\bar x_{\rm White\ Males}& &= \hat\beta_0 \\
&\bar x_{\rm White\ Females}& &= \hat\beta_0 + \hat\beta_{\rm Female} \\
&\bar x_{\rm Black\ Males}& &= \hat\beta_0 + \hat\beta_{\rm Black} \\
&\bar x_{\rm Black\ Females}& &= \hat\beta_0 + \hat\beta_{\rm Female} + \hat\beta_{\rm Black}
\end{align}
Si usted tenía un término de interacción, sería añadido al final de la ecuación de mujeres negras. (La interpretación de un término de interacción es bastante complicada, pero me paseo por aquí: la Interpretación del término de interacción.)
Actualización: Para aclarar mis puntos, vamos a considerar una lata ejemplo, codificado en R
.
d = data.frame(Sex =factor(rep(c("Male","Female"),times=2), levels=c("Male","Female")),
Race =factor(rep(c("White","Black"),each=2), levels=c("White","Black")),
y =c(1, 3, 5, 7))
d
# Sex Race y
# 1 Male White 1
# 2 Female White 3
# 3 Male Black 5
# 4 Female Black 7
Los medios de y
de estas variables categóricas son:
aggregate(y~Sex, d, mean)
# Sex y
# 1 Male 3
# 2 Female 5
## i.e., the difference is 2
aggregate(y~Race, d, mean)
# Race y
# 1 White 2
# 2 Black 6
## i.e., the difference is 4
Podemos comparar las diferencias entre estos medios de los coeficientes de un modelo ajustado:
summary(lm(y~Sex+Race, d))
# ...
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 1 3.85e-16 2.60e+15 2.4e-16 ***
# SexFemale 2 4.44e-16 4.50e+15 < 2e-16 ***
# RaceBlack 4 4.44e-16 9.01e+15 < 2e-16 ***
# ...
# Warning message:
# In summary.lm(lm(y ~ Sex + Race, d)) :
# essentially perfect fit: summary may be unreliable
La cosa es reconocer acerca de esta situación es que, sin un término de interacción, estamos suponiendo que las líneas paralelas. Por lo tanto, el Estimate
de la (Intercept)
es la media de los varones blancos. El Estimate
para SexFemale
es la diferencia entre la media de las mujeres y la media de los machos. El Estimate
para RaceBlack
es la diferencia entre la media de los negros y de la media de los blancos. De nuevo, debido a que un modelo sin término de interacción se supone que los efectos son estrictamente aditivo (las líneas son estrictamente paralelas), la media de mujeres negras es entonces la media de los varones blancos, además de la diferencia entre la media de las mujeres y la media de los varones, además de la diferencia entre la media de los negros y de la media de los blancos.