2 votos

¿Por qué podemos asumir errores distribuidos normalmente en probit pero no en LPM?

¿Por qué podemos suponer que los errores se distribuyen normalmente en los modelos probit, pero no en los modelos de probabilidad lineal?

Cuando se utilizan con una variable dependiente binaria, los LPM violan algunos supuestos necesarios. En particular, los LPM violan los siguientes supuestos:

  1. Forma funcional
  2. Probabilidad acotada entre 0 y 1
  3. Errores homocedásticos
  4. Errores distribuidos normalmente (para la comprobación de hipótesis)

La forma en que los modelos de regresión probit corrigen los tres primeros es comprensible.

Sin embargo, no entiendo cómo los modelos probit corrigen la violación de la distribución normal sobre los errores: los modelos probit siguen asumiendo errores distribuidos normalmente. Por supuesto, también existen los modelos logit, que suponen una distribución logística de los errores.

7voto

Jeff Bauer Puntos 236

Modelos de probabilidad condicional como el LPM, el probit y el logit no tienen términos de error . A su nivel, la especificación funcional de la probabilidad condicional está totalmente desconectada de los argumentos probabilísticos -es sólo una forma funcional matemática que tiene propiedades quizás convenientes y/o realistas.

Para poder "ver" el término de error, es decir, el elemento aleatorio, y discutir las hipótesis y distribuciones probabilísticas, hay que aplicar el enfoque de la "variable latente" (habitual al menos en econometría), mediante el cual estos modelos de probabilidad condicional se inducido por hipótesis distributivas fundamentales en el nivel inicial.

En este enfoque, el Modelo de Probabilidad Lineal es el resultado de suponer que el término de error en la regresión latente-variable subyacente sigue una Uniforme que es simétrica alrededor de cero.

Asumiendo una configuración de regresión simple para simplificar, inicialmente especificamos que

$$Y^* = b_0+ b_1X + \epsilon,\;\; \epsilon\mid X\sim U(-a,a)$$

El término de error tiene un valor esperado cero, condicional a los regresores. En este caso, la función de distribución acumulativa es $F_{\epsilon|X}(\epsilon\mid X) = \frac {\epsilon + a}{2a}$

$Y^*$ es inobservable (o puede ser observable en principio, pero no tenemos datos sobre ella). Pero sí tenemos datos sobre la función indicadora $Y = I\{Y^*\geq 0\}$

El modelo observado es entonces

$$P(Y =1\mid X ) = P(Y^*>0\mid X) = P(b_0+ b_1X + \epsilon>0\mid X) = P(\epsilon >- b_0- b_1X\mid X)$$ $$=1-F_{\epsilon|X}(- b_0- b_1X\mid X) = 1-\frac {- b_0- b_1X + a}{2a} = \frac {a+b_0}{2a}+\frac {b_1}{2a}X$$

$$\Rightarrow P(Y =1\mid X )= \beta_0 + \beta_1X$$

que es el modelo de probabilidad lineal con el mapeo

$$\beta_0 = \frac {a+b_0}{2a},\;\; \beta_1=\frac{b_1}{2a}$$

Por tanto, no se trata de "corregir" nada. Si De hecho, el mecanismo subyacente de generación de datos es el supuesto anteriormente, entonces el LPM es la especificación correcta del modelo, y el probit o el logit serían una especificación errónea.

Por lo tanto, el modelo probit tampoco "corrige" las cosas mencionadas en la pregunta: para empezar, suponemos que la distribución de errores subyacente es normal. Lo mismo ocurre con el modelo logit y la distribución logística.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X