5 votos

Modelo de probabilidad lineal, las variables ficticias y los mismos errores estándar en todas las estimaciones

Yo soy de ajuste del modelo de probabilidad lineal, $$ Y_i=\beta_0 + \sum_{j=1}^J \beta_j G_{ji} +\varepsilon_i $$ donde$Y_i \in \{0,1\}$$G_{ji} \in \{0,1\}$$j=1,\ldots,J$$\sum_{j=1}^J G_{ji}=1$, es decir, el $G_{ij}$ son grupos y cada uno se coloca en uno de estos grupos.

Yo uso OLS para obtener las estimaciones para $\beta_j$, $j=1,\ldots,J$ (dejando de lado un grupo para evitar multi-linealidad) y tengo mis estimaciones. Lo extraño es que los errores estándar son los mismos para todos $\beta_j$, $j=1,\ldots,J$, es decir,$se(\widehat \beta_1)=se(\widehat \beta_{2})=\ldots= se(\widehat \beta_J)$.

Es normal que los errores estándar son los mismos? No es la primera vez que esto ha sucedido a mí y no estoy seguro de si estoy haciendo algo mal.

8voto

Christoph Hanck Puntos 4143

Recordemos que los errores estándar son los elementos de la diagonal de la matriz $$ \hat\sigma^2(X X)^{-1} $$ Como se ha señalado por @repmat, este resultado requiere que cada grupo es de igual tamaño, es decir, que $$\sum_iG_{ji}=c$$ para $j=1,\ldots,J$.

En ese caso, usted puede comprobar fácilmente que $$ X X=n \begin{pmatrix} 1&1/J&\cdots&\cdots&\cdots&1/J\\ 1/J&1/J&0&\cdots&\cdots&0\\ 1/J&0&1/J&\ddots&\cdots&0\\ \vdots&0&0&\ddots&\ddots&0\\ \vdots&\vdots&\cdots&\ddots&\ddots&0\\ 1/J&0&\cdots&\cdots&0&1/J\\ \end{pmatrix}, $$ suponiendo que la primera columna contiene el término constante. Suponiendo que uno de los redundante dummies ha disminuido, por lo que el $X'X$ es de dimensión $J\times J$, la inversa es $$ (X X)^{-1}=\frac{1}{n}\begin{pmatrix} J&-J&\cdots&&\cdots&-J\\ -J&2J&J&\cdots&\cdots&J\\ \vdots&J&2J&J&&J\\ &\vdots&J&2J&\ddots&\vdots\\ \vdots&\vdots&&\ddots&2J&J\\ -J&J&\cdots&\cdots&J&2J \end{pmatrix} $$ Vemos que los elementos de la diagonal son idénticos (salvo la relativa a la constante), produciendo idénticos errores estándar.

La naturaleza de la $y_i$ es irrelevante, ya que estos entran los errores estándar sólo a través de la $\hat\sigma^2$, que, sin embargo, obviamente sólo se multiplica cada elemento de a $(X'X)^{-1}$ y por lo tanto no afecta el resultado de que los elementos de la diagonal son idénticos.

Este resultado también muestra que el cuadrado error estándar en la constante es la mitad que la de los maniquíes.

P. S.: Como se sugirió por Alecos en los comentarios, podemos definir el bloque de la matriz $$ X X= n\begin{pmatrix} A&B\\C&D \end{pmatrix}, $$ con $A=1$, $B=(1/J,\ldots, 1/J)$, $C=B'$ y $D=I/J$ y el uso de un resultado en particiones inversos que la parte inferior derecha del bloque tiene inversa $$ D^{-1}+D^{-1}C(A-BD^{-1}C)^{-1}BD^{-1} $$ para ver que el resultado es presentado como el anterior.

ACTUALIZACIÓN: en Cuanto a la discusión en los comentarios de @repmat la respuesta, el número de equivalencia no exactamente robusto de los errores estándar.

Esto es debido a que la "carne" de la matriz $X'\Sigma_uX$ la robustez de la varianza del estimador de $$ (X X)^{-1}X'\Sigma_uX(X X)^{-1} $$ tiene una diagonal $$ \begin{pmatrix} \sum_{i=1}^n\hat{u}_i^2\\ \sum_{i=1,\,i\in j=1}^n\hat{u}_i^2\\ \vdots\\ \sum_{i=1,\,i\in j=J-1}^n\hat{u}_i^2\\ \end{pmatrix} $$ (suponiendo que el grupo de $J$ ha sido eliminado para evitar la multicolinealidad), y en general no hay razón para creer que las sumas de los cuadrados de los residuos pertenecientes a los diferentes grupos son idénticos.

Las diferencias son menores, aunque (al menos bajo homoskedasticity). Aquí es una modificación de su ilustración:

set.seed(42)
n <- 999
library(sandwich)
library(lmtest)

year1 <- data.frame(rep(1, n/3))
year2 <- data.frame(rep(2, n/3))
year3 <- data.frame(rep(3, n/3))

require(plyr)
years <- rbind.fill(year1, year2, year3)
years[is.na(years)] <- 0
years <- as.factor(rowSums(years))

y <- round(runif(n),0)
reg <- lm(y ~ years)

coeftest(reg, vcov = vcovHC(reg, "HC0"))

> 

t test of coefficients:

             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.486486   0.027390 17.7616   <2e-16 ***
years2      -0.027027   0.038678 -0.6988   0.4849    
years3      -0.012012   0.038717 -0.3103   0.7564    
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1

4voto

Repmat Puntos 1118

Esto ocurre si, y sólo si, los dos (o más variables) tienen la misma varianza, o en otras palabras que todos los grupos son igualmente grandes (en términos de 1). La naturaleza de la $y$ no importa.

Aquí un ejemplo de la R:

set.seed(42)
year1 <- data.frame(rep(1, 333))
year2 <- data.frame(rep(2, 333))
year3 <- data.frame(rep(3, 333))

require(plyr)
years <- rbind.fill(year1, year2, year3)
years[is.na(years)] <- 0
years <- as.factor(rowSums(years))

y <- round(runif(999),0)
coef(summary(lm(y ~ years)))


               Estimate Std. Error    t value     Pr(>|t|)
(Intercept)  0.48648649 0.02739570 17.7577679 1.667287e-61
years2      -0.02702703 0.03874337 -0.6975910 4.855958e-01
years3      -0.01201201 0.03874337 -0.3100404 7.565951e-01

Si los grupos no son igual de grandes (tiene el mismo número de 1's), los errores pueden ser similares pero no idénticos (como arriba).

La intuición es que son sólo la estimación de los medios en los diferentes grupos. Dos variables ficticias siempre tienen la misma varianza si la cantidad de 1's son los mismos. Debido a que la fórmula para la varianza es:

$$ p (1-p) $$

Where $p$ es (por ejemplo) a la media de la variable.

Edit: Para que quede claro, puede agregar otros no dummy variables en la regresión anterior. Las dos variables ficticias todavía tienen la misma varianza.

1voto

mdewey Puntos 579

Usted podría preguntarse '¿por Qué debo esperar que uno de ellos sea mucho mayor que el de los demás?". Creo que no estás haciendo nada malo, tan lejos como especificar el modelo de la matriz de que se trate. Me pregunto, sin embargo, si el uso de la regresión lineal para un resultado que es un binario es una buena cosa. La mayoría de la gente podría utilizar la regresión logística aquí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X