56 votos

¿Qué significan sustancialmente "endogeneidad" y "exogeneidad"?

Entiendo que la definición básica de endogeneidad es que $$ X'\epsilon=0 $$ no se satisface, pero ¿qué significa esto en el mundo real? He leído el artículo de la Wikipedia, con el ejemplo de la oferta y la demanda, tratando de darle sentido, pero no me ha ayudado mucho. He oído la otra descripción de lo endógeno y lo exógeno como estar dentro del sistema y estar fuera del sistema y eso sigue sin tener sentido para mí.

1 votos

Las tres respuestas siguientes son muy buenas (+1 a cada una). Si quieres otra fuente de información, hablo de este tema aquí: Estimación de $b_1x_1+b_2x_2$ en lugar de $b_1x_1+b_2x_2+b_3x_3$ e ilustrarlo con una simulación en R .

1 votos

Cuando hay endogeneidad, la regresión ya no tiene estimadores ni estadísticas de prueba utilizables.

1 votos

Estoy de acuerdo con @gung, y me gustaría subrayar que una respuesta completa abordaría "Usable para con qué propósito "? Muchas de las respuestas anteriores tratan muy bien esta cuestión.

84voto

Bill Puntos 3605

La respuesta de JohnRos es muy buena. En términos sencillos, la endogeneidad significa que tienes la causalidad equivocada. Que el modelo que escribiste y estimaste no capta adecuadamente la forma en que funciona la causalidad en el mundo real. Cuando escribes

\begin {ecuación} Y_i= \beta_0 + \beta_1X_i + \epsilon_i \end {Ecuación}

Puedes pensar en esta ecuación de varias maneras. Puedes pensar en ella como una forma conveniente de predecir $Y$ basado en $X$ de los valores. Se podría pensar en ello como una forma conveniente de modelar $E\{Y|X\}$ . En cualquiera de estos casos, no existe la endogeneidad y no hay que preocuparse por ella.

Sin embargo, también se puede pensar en la ecuación como la encarnación de la causalidad. Se puede pensar en $\beta_1$ como respuesta a la pregunta: "¿Qué pasaría con $Y$ si me metiera en este sistema y aumentara experimentalmente $X$ por 1?" Si quieres pensarlo así, usar OLS para estimarlo equivale a suponerlo:

  1. $X$ causa $Y$
  2. $\epsilon$ causa $Y$
  3. $\epsilon$ no causa $X$
  4. $Y$ no causa $X$
  5. Nada que provoque $\epsilon$ también provoca $X$

El fracaso de cualquiera de los 3-5 generalmente resultará en $E\{\epsilon|X\}\ne0$ o, de forma no muy equivalente, ${\rm Cov}(X,\epsilon)\ne0$ . Las variables instrumentales son una forma de corregir el hecho de que la causalidad es incorrecta (haciendo otra suposición causal diferente). Un ensayo controlado aleatorio perfectamente realizado es una forma de forzando 3-5 para ser verdad. Si eliges $X$ al azar, entonces seguro que no es causado por $Y$ , $\epsilon$ o cualquier otra cosa. Los llamados métodos de "experimento natural" son intentos de encontrar circunstancias especiales en el mundo en las que 3-5 son verdaderos incluso cuando no pensamos que 3-5 sean normalmente verdaderos.

En el ejemplo de JohnRos, para calcular el valor salarial de la educación, se necesita una interpretación causal de $\beta_1$ pero hay buenas razones para creer que el 3 o el 5 son falsos.

Sin embargo, su confusión es comprensible. Es muy típico en los cursos sobre el modelo lineal que el instructor utilice la interpretación causal de $\beta_1$ Di lo anterior mientras pretendía no introducir la causalidad, pretendiendo que "todo es sólo estadística". Es una mentira cobarde, pero también es muy común.

De hecho, forma parte de un fenómeno más amplio en la biomedicina y las ciencias sociales. Casi siempre se trata de determinar el efecto causal de $X$ en $Y$ ---al fin y al cabo, de eso se trata la ciencia. Por otro lado, también es casi siempre el caso de que hay alguna historia que se puede contar que lleva a la conclusión de que una de las 3-5 es falsa. Por lo tanto, existe una especie de deshonestidad practicada, fluida y equívoca en la que se esquivan las objeciones diciendo que sólo estamos haciendo un trabajo asociativo y luego se esconde la interpretación causal en otra parte (normalmente en las secciones de introducción y conclusión del artículo).

Si está realmente interesado, el tipo que debe leer es Judea Perl. James Heckman también es bueno.

6 votos

+1 Gran explicación y comentario. Bienvenido a nuestra página!.

2 votos

¿Podría indicar qué obra de Heckman recomendaría para obtener una comprensión básica y sólida de esta cuestión?

0 votos

Tengo una pregunta: ¿cómo comprobar si $E[\epsilon|X]=0$ o $E[\epsilon X]=0$ ¿es cierto que "utiliza los datos que tiene a mano (en lugar de su conocimiento del dominio), que pueden no proceder de un experimento, es decir, de un conjunto de datos observacionales"? Creo que no hay manera de probar $E[\epsilon|X]=0$ o $E[\epsilon X]=0$ sólo utilizar los datos, ya que $\epsilon$ no es observable, ¿entonces es cierto que la endogeneidad no se puede comprobar con datos?

29voto

JohnRos Puntos 3211

Permítanme utilizar un ejemplo:

Digamos que se quiere cuantificar el efecto (causal) de la educación sobre los ingresos. Se toman los datos de los años de educación y de los ingresos y se hace una regresión de uno contra el otro. ¿Recuperó lo que quería? Probablemente no. Esto se debe a que los ingresos también están causados por cosas distintas a la educación, pero que están correlacionadas con ella. Llamémoslas "habilidades": Podemos suponer sin temor a equivocarnos que los años de educación se ven afectados por la "habilidad", ya que cuanto más hábil seas, más fácil será obtener educación. Por lo tanto, si se hace una regresión de los años de educación sobre los ingresos, el estimador del efecto de la educación absorbe el efecto de la "habilidad" y se obtiene una estimación excesivamente optimista del rendimiento de la educación. Es decir, el efecto de la educación sobre la renta está sesgado (al alza) porque la educación no es exógena a la renta.

La endogeneidad sólo es un problema si se quiere recuperar causal efectos (a diferencia de las meras correlaciones). Además, si se puede diseñar un experimento, se puede garantizar que ${\rm Cov}(X,\epsilon)=0$ por asignación aleatoria. Lamentablemente, esto suele ser imposible en las ciencias sociales.

1 votos

Gracias por el ejemplo y la explicación. Todavía no tengo ni idea de lo que significan la endogeneidad y la exogeneidad en lenguaje sencillo. ¿Qué quiero decir exactamente cuando digo que una variable es endógena o exógena?

0 votos

@ JohnRos Usted escribió "La endogeneidad es sólo un problema si se quiere recuperar los efectos causales" entonces me parece que también es posible decir que: "la exogeneidad implica causalidad" ... Nunca he leído esa frase ... sin embargo ¿Es correcta? Si es correcta me parece que muchos libros de texto, a veces implícitamente, suponen la inferencia causal como objetivos normales.

0 votos

@markowitz: Siempre que se infiera sobre los coeficientes de regresión, se da a entender que se quiere causalidad. Si sólo quieres predicciones, el valor de los coeficientes no importa realmente, siempre que las predicciones sean buenas. Es cierto que los libros de texto clásicos no hacen esta distinción porque antes la tarea de predicción no es de "ciencia básica" sino más bien de "ingeniería" (y perdóname por esta burda generalización)

11voto

brennanag Puntos 40

El usuario25901 busca una explicación sencilla y real de lo que significan los términos exógeno y endógeno. Responder con ejemplos arcanos o definiciones matemáticas no responde realmente a la pregunta formulada.

¿Cómo puedo entender estos dos términos?

Esto es lo que se me ocurrió:

Exo - externo, exterior Endo - interno, dentro -género - originario de

Exógeno: Una variable es exógena para un modelo si no está determinada por otros parámetros y variables del modelo, sino que se establece externamente y cualquier cambio en ella proviene de fuerzas externas.

Endógena: Una variable es endógena en un modelo si es, al menos en parte, función de otros parámetros y variables del modelo.

10 votos

Estas son definiciones intuitivas razonables, pero no es necesario despreciar tanto las otras respuestas.

7 votos

Apelar a la etimología puede darnos asideros útiles para recordando lo que significan los términos técnicos (a mí me funciona bien), pero usar la etimología para justificar es que hay que evitarlos. Un buen número de términos (en estadística y en otros ámbitos) sólo se entienden correctamente mediante el estudio minucioso de sus definiciones matemáticas. La comprensión de esta respuesta requiere una concepción clara de los usos previstos de palabras y frases como "determinado por", "establecido externamente", "cambios en", "fuerzas externas" y "parcialmente [una] función", ninguna de las cuales es inmediatamente evidente o inequívoca.

9voto

generic_user Puntos 2269

La regresión OLS, por construcción, da $X'\epsilon=0$ . En realidad eso no es correcto. Da $X'\hat\epsilon=0$ por la construcción. Sus residuos estimados no están correlacionados con sus regresores, pero sus residuos estimados están "equivocados" en cierto sentido.

Si el verdadero proceso de generación de datos opera por $Y=\alpha +\beta X + \gamma Z + {\rm noise}$ y $Z$ está correlacionada con $X$ entonces $X'{\rm noise} \neq 0$ si se ajusta una regresión dejando fuera $Z$ . Por supuesto, los residuos estimados no estarán correlacionados con $X$ . Siempre lo son, de la misma manera que $\log(e^x)=x$ . Es simplemente un hecho matemático. Es el sesgo de la variable omitida.

Digamos que $I$ se asigna al azar. Tal vez sea el día de la semana en que nacen las personas. Tal vez sea un experimento real. Es cualquier cosa que no esté relacionada con $Y$ que predice $X$ . A continuación, puede utilizar la aleatoriedad de $I$ para predecir $X$ y luego usar esa predicción $X$ para ajustar un modelo a $Y$ .

Se trata de mínimos cuadrados de dos etapas, que es casi lo mismo que el IV.

0 votos

Según tengo entendido no es 2SLS una forma de hacer IV, disculpas si me equivoco.

0 votos

Los errores estándar de 2SLS son erróneos. Olvidé por qué o cómo, pero probablemente encontrarás algo si buscas en Google "IV 2SLS standard errors". La mayoría de los paquetes de software implementan 2sls con el método solve(t(z)%*%(x)%*%t(z)%*%y

1 votos

Los errores estándar de 2SLS son erróneos porque la entrada a la etapa final (digamos $\hat{X}$ ) no refleja la varianza real de $X$ . Los SEs corregidos se ajustan a esto.

-1voto

Amon Magwiro Puntos 1

En la regresión queremos captar el impacto cuantitativo de una variable independiente (que suponemos exógena y que no depende de otra cosa) sobre una variable dependiente identificada. Queremos saber qué efecto neto tiene una variable exógena sobre una variable dependiente, lo que significa que la variable independiente debe estar libre de cualquier influencia de otra variable. Una forma rápida de ver si la regresión sufre el problema de la endogeneidad es comprobar la correlación entre la variable independiente y los residuos. Pero esto es sólo una comprobación aproximada, de lo contrario hay que realizar pruebas formales de endogeneidad.

3 votos

Esto no es cierto. La correlación entre los residuos y las variables explicativas de una regresión es nula por construcción. Esto no es una prueba de endogeneidad.

0 votos

@Andy Estoy de acuerdo contigo. Entonces mi pregunta es: ¿hay alguna forma de probar la endogeneidad $E[\epsilon X]=0$ ¿sólo con datos? ¿dónde? $\epsilon$ no es el residuo sino de $y=b_0+b_1x+\epsilon$ es decir, el modelo que creaste que genera los datos, por lo que $\epsilon$ no es observable. Además, creo que Amon quiere decir que se puede comprobar empíricamente si $E[\hat{e}_i|x]=0$ , donde $\hat{e}_i$ es el residuo. Si $E[\hat{e}_i|x]=0$ es aproximadamente cierto, entonces se puede afirmar $\hat{b}_0+\hat{b}_1x$ probablemente capturan la media condicional y por lo tanto, no hay mucho problema de endogeneidad, ¿estoy en lo cierto?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X