4 votos

Independencia de medio de entendimiento en el ajuste de regresión

La noción de correlación (E[XY]=0) y la media de la independencia (E[X|Y]=0) son mencionados en la diferente configuración de los supuestos de la regresión. Sabemos que E[X|Y]=0 implica E[XY]=0 (pero no al revés). Aquí hay una pregunta específica acerca de la relación entre estas dos nociones en la regresión de ajuste.

Estamos viendo el efecto de si ir a la escuela o no en el salario de una población. Deje Di{1,0} ser la variable aleatoria indicar si los i fue a la escuela (Di=1) o no (Di=0). Deje Yi el salario de las personas i. Tenga en cuenta que si se puede FORZAR a todo el mundo en la población de ir a la escuela, entonces vamos a tener una distribución de los salarios que se denota por aY1i, y del mismo modo, si se nos FUERZA a todas las personas que no van a la escuela, tenemos una distribución de los salarios que se denota por a Y0i.

Así que tenemos Yi=DiY1i+(1Di)Y0i               (1).

Tenga en cuenta que siempre podemos escribir Y1i=μ1+ϵ1iY0i=μ0+ϵ0i, es decir, significa además de un ruido con una media de 0. A continuación, sustituimos estas 2 ecuaciones en la ecuación (1), tenemos

Yi=μ0+(μ1μ0)Di+ϵi       (2) donde ϵi=ϵ0i+Di(ϵ1iϵ0i) Tenga en cuenta que ϵi tiene una media de 0 con claridad.

Así que la ecuación (2) describe el mundo real acerca de los salarios y de la escuela sin hacer ninguna hipótesis distinta de la media de Y1i Y0i es finito.

Tenga en cuenta que ϵi siempre dependiente de la con Di (pero no necesariamente están correlacionadas). Ahora supongamos ϵi Di están correlacionadas (en primer lugar, no sé lo que significa esto en la práctica), entonces sabemos que el estimador de MCO es consistente (por unbiasedness de OLS, se requeriría de la media de la independencia, es decir, E[ϵi|Di]=0). Por lo μ0 μ1 es de identificación personal. En este caso, ϵi Di no es equivalente a E[ϵiDi]=0. Me pregunto si alguien podría explicar el significado subyacente de esta expresión en esta configuración.

Tenga en cuenta que una condición suficiente para E[ϵiDi]=0 es que el E[ϵi|Di]=0. Puedo entender esta expresión, muy bien, que es "dado que la información de Di no va a cambiar la media de la variable aleatoria ϵi". Tenga en cuenta que este es más débil que la noción de independencia, desde el ϵi independiente de Di significa que, dada la información de Di, la distribución de ϵi sigue siendo el mismo, que es mucho más fuerte que el primer momento es la misma (es decir, E[ϵi|Di]=0).

La expresión E[ϵi|Di]=0 puede ser explicado de forma intuitiva si nos fijamos en esta identificación del problema desde un ángulo diferente, tenemos:

E[Yi|Di=1]E[Yi|Di=0]=(μ1μ0)+E[ϵi|Di=1]E[ϵi|Di=0]=(μ1μ0)+E[ϵ1i|Di=1]E[ϵ0i|Di=0].

Tenga en cuenta que observamos E[Yi|Di=1] E[Yi|Di=0] y queremos identificar a μ1μ0, lo que requiere de E[ϵ1i|Di=1]E[ϵ0i|Di=0]=0. Tenga en cuenta que si al azar asignar la escuela o de la escuela a la gente en la población, esto garantizará E[ϵ1i|Di=1]E[ϵ0i|Di=0]=0 (o incluso si no tenemos la asignación al azar, pero de alguna manera, sabemos que E[ϵi|Di]=0, entonces todavía somos capaces de hacer esta afirmación).

Sin embargo, si sólo tenemos ϵi Di no están correlacionados, es decir, E[ϵiDi]=0, esto no implicará E[ϵ1i|Di=1]E[ϵ0i|Di=0]=0. Pero entonces esto implica que el puramente vistazo a la media del grupo (es decir, E[Yi|Di=1]E[Yi|Di=0]) no nos va a ayudar a identificar a μ1μ0, pero OLS va a lograr este objetivo. Dónde está mi lógica que va mal?

1voto

SHU Puntos 18

Aquí el supuesto de que ϵi Di están correlacionadas sin refiero a la celebración de la independencia es imposible cuando se Di toma sólo dos valores. Intuitivamente, la correlación mide la relación lineal entre los valores, por lo que para la media de la independencia para que no se sostenga en la presencia de una correlación cero, la media de E[ϵiDi] debe ser una función no lineal de Di. Pero con sólo dos valores posibles para Di, no hay espacio para la no linealidad.

Prueba

Supongamos E[ϵi]=0, E[ϵiDi]=0 e indicar los dos posibles valores de Did1d2. El uso de los dos supuestos y de la descomposición de la Di=d1,Di=d2, obtenemos \begin{equation}
\begin{cases}
\mathbb{P}(D_i=d_1)\,\mathbb{E}(\epsilon_i \mid D_i = d_1) + \mathbb{P}(D_i=d_2)\,\mathbb{E}(\epsilon_i \mid D_i = d_2) = 0 \\ \mathbb{P}(D_i=d_1)\,\mathbb{E}(\epsilon_i \mid D_i = d_1)\,d_1 + \mathbb{P}(D_i=d_2)\,\mathbb{E}(\epsilon_i \mid D_i = d_2)\,d_2 = 0
\end{casos} 
\end{equation}

Resolviendo este sistema de ecuaciones para P(Di=d1)E(ϵiDi=d1)P(Di=d2)E(ϵiDi=d2), vemos que cualquiera de

  1. d1=d2 o
  2. P(Di=d1)E(ϵiDi=d1)=P(Di=d2)E(ϵiDi=d2)=0

El primer caso significaría Di tiene sólo un valor posible (y la media de independencia es trivialmente). Suponiendo que ambas probabilidades P(Di=dk)>0*, el segundo caso implica entonces E(ϵiDi=dk)=0, es decir, la media de la independencia. Así, la media de la independencia se sigue de la hipótesis.

*Si una de las probabilidades es 0, el correspondiente E(ϵiDi=dk) técnicamente puede obtener cualquier valor, pero entonces el modelo correspondería a Di tener sólo uno de los posibles valores.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X