30 votos

Sesgo de variable omitida en la regresión logística frente a sesgo de variable omitida en la regresión por mínimos cuadrados ordinarios

Tengo una pregunta sobre el sesgo de variable omitida en la regresión logística y lineal.

Digamos que omito algunas variables de un modelo de regresión lineal. Supongamos que esas variables omitidas no están correlacionadas con las variables que incluí en mi modelo. Esas variables omitidas no sesgan los coeficientes de mi modelo.

Pero en regresión logística, acabo de aprender que esto no es cierto. Las variables omitidas sesgarán los coeficientes de las variables incluidas incluso si las variables omitidas no están correlacionadas con las variables incluidas. He encontrado un artículo sobre este tema, pero no lo entiendo.

Aquí está el papel y algunos diapositivas de powerpoint.

El sesgo, aparentemente, es siempre hacia cero. ¿Alguien puede explicar cómo funciona esto?

32voto

Jeff Bauer Puntos 236

El caso del "sesgo de atenuación" puede presentarse más claramente si examinamos el modelo "probit", pero el resultado se traslada también a la regresión logística.

Bajo los Modelos de Probabilidad Condicional (Logístico (logit), "probit", y modelos de "Probabilidad Lineal") podemos postular un latente modelo de regresión lineal (inobservable):

$$y^* = X\beta + u$$

donde $y^*$ es una variable continua no observable (y $X$ es la matriz regresora). Se supone que el término de error es independiente de los regresores, y seguir una distribución que tenga una densidad simétrica en torno a cero y en nuestro caso, la distribución normal estándar $F_U(u)= \Phi(u)$ .

Suponemos que lo que observamos, es decir, la variable binaria $y$ es una función indicadora de la variable inobservable $y^*$ :

$$ y = 1 \;\;\text{if} \;\;y^*>0,\qquad y = 0 \;\;\text{if}\;\; y^*\le 0$$

Entonces nos preguntamos "¿cuál es la probabilidad de que $y$ tomará el valor $1$ dados los regresores?" (es decir, estamos ante una probabilidad condicional). Es decir

$$P(y =1\mid X ) = P(y^*>0\mid X) = P(X\beta + u>0\mid X) = P(u> - X\beta\mid X) \\= 1- \Phi (-Χ\beta) = \Phi (X\beta) $$

la última igualdad se debe a la propiedad "reflexiva" de la función de distribución acumulativa estándar, que procede de la simetría de la función de densidad en torno a cero. Obsérvese que, aunque hemos supuesto que $u$ es independiente de $X$ acondicionamiento en $X$ para tratar la cantidad $X\beta$ como no aleatorio.

Si suponemos que $X\beta = b_0+b_1X_1 + b_2X_2$ obtenemos el modelo teórico

$$P(y =1\mid X ) = \Phi (b_0+b_1X_1 + b_2X_2) \tag{1}$$

Ahora $X_2$ ser independiente de $X_1$ y excluidos erróneamente de la especificación de la regresión subyacente. Por lo tanto, especificamos

$$y^* = b_0+b_1X_1 + \epsilon$$ Supongamos además que $X_2$ es también una variable aleatoria normal $X_2 \sim N(\mu_2,\sigma_2^2)$ . Pero esto significa que

$$\epsilon = u + b_2X_2 \sim N(b_2\mu_2, 1+b_2^2\sigma_2^2)$$

debido al cierre por defecto de la distribución normal (y al supuesto de independencia). Aplicando la misma lógica que antes, aquí tenemos

$$P(y =1\mid X_1 ) = P(y^*>0\mid X_1) = P(b_0+b_1X_1 + \epsilon>0\mid X_1) = P(\epsilon> - b_0-b_1X_1\mid X_1) $$

Normalización de la $\epsilon$ variable tenemos

$$P(y =1\mid X_1 )= 1- P\left(\frac{\epsilon-b_2\mu_2}{\sqrt {1+b_2^2\sigma_2^2}}\leq - \frac {(b_0 + b_2\mu_2)}{\sqrt {1+b_2^2\sigma_2^2}}- \frac {b_1}{\sqrt {1+b_2^2\sigma_2^2}}X_1\mid X_1\right)$$

$$\Rightarrow P(y =1\mid X_1) = \Phi\left(\frac {(b_0 + b_2\mu_2)}{\sqrt {1+b_2^2\sigma_2^2}}+ \frac {b_1}{\sqrt {1+b_2^2\sigma_2^2}}X_1\right) \tag{2}$$

y se pueden comparar los modelos $(1)$ y $(2)$ .

La expresión teórica anterior, nos dice donde nuestro estimador de máxima verosimilitud de $b_1$ va a converger, ya que sigue siendo un estimador consistente, en el sentido de que convergerá a la cantidad teórica que realmente existe en el modelo (y, por supuesto, no en el sentido de que vaya a encontrar la "verdad" en cualquier caso):

$$\hat b_1 \xrightarrow{p} \frac {b_1}{\sqrt {1+b_2^2\sigma_2^2}} \implies |\hat b_1|< |b_1|$$

que es el resultado del "sesgo hacia cero".

Hemos utilizado el modelo probit, y no el logit (regresión logística), porque sólo en condiciones de normalidad podemos deducir la distribución de $\epsilon$ . La distribución logística no es cerrada bajo adición. Esto significa que si omitimos una variable relevante en la regresión logística, también creamos una mala especificación de la distribución, porque el término de error (que ahora incluye la variable omitida) ya no sigue una distribución logística. Pero esto no cambia el resultado del sesgo (véase la nota a pie de página 6 del artículo enlazado por el OP).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X