La respuesta de JohnRos es muy buena. En términos sencillos, la endogeneidad significa que tienes la causalidad equivocada. Que el modelo que escribiste y estimaste no capta adecuadamente la forma en que funciona la causalidad en el mundo real. Cuando escribes
\begin {ecuación} Y_i= \beta_0 + \beta_1X_i + \epsilon_i \end {Ecuación}
Puedes pensar en esta ecuación de varias maneras. Puedes pensar en ella como una forma conveniente de predecir $Y$ basado en $X$ de los valores. Se podría pensar en ello como una forma conveniente de modelar $E\{Y|X\}$ . En cualquiera de estos casos, no existe la endogeneidad y no hay que preocuparse por ella.
Sin embargo, también se puede pensar en la ecuación como la encarnación de la causalidad. Se puede pensar en $\beta_1$ como respuesta a la pregunta: "¿Qué pasaría con $Y$ si me metiera en este sistema y aumentara experimentalmente $X$ por 1?" Si quieres pensarlo así, usar OLS para estimarlo equivale a suponerlo:
- $X$ causa $Y$
- $\epsilon$ causa $Y$
- $\epsilon$ no causa $X$
- $Y$ no causa $X$
- Nada que provoque $\epsilon$ también provoca $X$
El fracaso de cualquiera de los 3-5 generalmente resultará en $E\{\epsilon|X\}\ne0$ o, de forma no muy equivalente, ${\rm Cov}(X,\epsilon)\ne0$ . Las variables instrumentales son una forma de corregir el hecho de que la causalidad es incorrecta (haciendo otra suposición causal diferente). Un ensayo controlado aleatorio perfectamente realizado es una forma de forzando 3-5 para ser verdad. Si eliges $X$ al azar, entonces seguro que no es causado por $Y$ , $\epsilon$ o cualquier otra cosa. Los llamados métodos de "experimento natural" son intentos de encontrar circunstancias especiales en el mundo en las que 3-5 son verdaderos incluso cuando no pensamos que 3-5 sean normalmente verdaderos.
En el ejemplo de JohnRos, para calcular el valor salarial de la educación, se necesita una interpretación causal de $\beta_1$ pero hay buenas razones para creer que el 3 o el 5 son falsos.
Sin embargo, su confusión es comprensible. Es muy típico en los cursos sobre el modelo lineal que el instructor utilice la interpretación causal de $\beta_1$ Di lo anterior mientras pretendía no introducir la causalidad, pretendiendo que "todo es sólo estadística". Es una mentira cobarde, pero también es muy común.
De hecho, forma parte de un fenómeno más amplio en la biomedicina y las ciencias sociales. Casi siempre se trata de determinar el efecto causal de $X$ en $Y$ ---al fin y al cabo, de eso se trata la ciencia. Por otro lado, también es casi siempre el caso de que hay alguna historia que se puede contar que lleva a la conclusión de que una de las 3-5 es falsa. Por lo tanto, existe una especie de deshonestidad practicada, fluida y equívoca en la que se esquivan las objeciones diciendo que sólo estamos haciendo un trabajo asociativo y luego se esconde la interpretación causal en otra parte (normalmente en las secciones de introducción y conclusión del artículo).
Si está realmente interesado, el tipo que debe leer es Judea Perl. James Heckman también es bueno.
1 votos
Las tres respuestas siguientes son muy buenas (+1 a cada una). Si quieres otra fuente de información, hablo de este tema aquí: Estimación de $b_1x_1+b_2x_2$ en lugar de $b_1x_1+b_2x_2+b_3x_3$ e ilustrarlo con una simulación en
R
.1 votos
Cuando hay endogeneidad, la regresión ya no tiene estimadores ni estadísticas de prueba utilizables.
1 votos
Estoy de acuerdo con @gung, y me gustaría subrayar que una respuesta completa abordaría "Usable para con qué propósito "? Muchas de las respuestas anteriores tratan muy bien esta cuestión.
0 votos
@Matthew Me parece que este post sí intenta responder a la pregunta "¿qué significa esto en el sentido del mundo real?" Estaría bien ver la explicación ampliada para que la gente pudiera apreciarla mejor.
0 votos
@whuber No sé, es tan corto que no puedo decirlo. Pero estaba pensando, por ejemplo, que el modelo estimado puede ser útil para la predicción (o simplemente la asociación) aunque tengas endogeneidad, así que lo de "ya no tiene estimadores utilizables" parece falso sin aclararlo.
0 votos
@Matthew: es justo; es una crítica útil y constructiva.
0 votos
La respuesta tampoco es técnicamente correcta en cuanto a la terminología. El estimador (supongo que Iván se refiere a OLS) y los estadísticos de prueba siguen siendo "utilizables" en el sentido de que funcionan, es decir, pueden aplicarse. Lo que no se obtiene es una estimación insesgada (¡!) de un determinado parámetro de la población, si es que se estaba buscando un parámetro de este tipo, como ha señalado Matthew.
0 votos
Esto no proporciona una respuesta a la pregunta. Para criticar o pedir aclaraciones a un autor, deje un comentario debajo de su publicación. - De la revisión