39 votos

¿Bajo qué supuestos se puede interpretar una regresión de forma causal?

En primer lugar, que no cunda el pánico. Sí, hay muchas preguntas similares en este sitio. Pero creo que ninguna da una respuesta concluyente a la pregunta de abajo. Por favor, tenga paciencia conmigo.


Considere un proceso de generación de datos $\text{D}_X(x_1, ... , x_n|\theta)$ , donde $\text{D}_X(\cdot)$ es una función de densidad conjunta, con $n$ variables y conjunto de parámetros $\theta$ .

Es bien sabido que una regresión de la forma $x_n = f(x_1, ... , x_{n-1}|\theta)$ es estimar una media condicional de la distribución conjunta, a saber $\text{E}(x_n|x_1,...,x_{n-1})$ . En el caso concreto de una regresión lineal, tenemos algo así como

$$ x_n = \theta_0 + \theta_1 x_1 + ... + \theta_{n-1}x_{n-1} + \epsilon $$

La pregunta es: bajo qué supuestos de la DGP $\text{D}_X(\cdot)$ ¿podemos inferir que la regresión (lineal o no) representa una relación causal?

Es bien sabido que los datos experimentales sí permiten esa interpretación. Por lo que puedo leer en otros lugares, parece que la condición requerida en la DGP es la exogeneidad:

$$ \text{E}(x_1, ... x_{n-1}|\epsilon) = 0$$

La naturaleza de la aleatoriedad de los datos experimentales garantiza lo anterior. La historia pasa a argumentar por qué los datos observacionales normalmente no logran alcanzar tal condición, razones que incluyen el sesgo de las variables omitidas, la causalidad inversa, la autoselección, los errores de medición, etc.

Sin embargo, tengo dudas sobre esta condición. Parece demasiado débil para abarcar todos los posibles argumentos contra la regresión que implica causalidad. De ahí mi pregunta anterior.

ACTUALIZACIÓN : No estoy asumiendo ninguna estructura causal dentro de mi DGP. Estoy asumiendo que la DGP es completa, en el sentido de que debe haber alguna causalidad (una posición ontológica que bien podría debatirse), y todas las variables relevantes están incluidas. La clave es identificar el conjunto de supuestos que me aseguran que la causalidad va de unas variables a otras, sin asumir desde el principio tal dirección de la causalidad.


Muchas publicaciones similares en el sitio web dedican tiempo a mencionar por qué la correlación no implica causalidad, sin aportar argumentos contundentes sobre cuándo lo hace. Es el caso, por ejemplo, de este un puesto muy popular. Además, en el el puesto más popular en el sitio sobre el tema, la respuesta aceptada da la respuesta muy vaga:

Exponga todas las variables ocultas y tendrá la causalidad.

No sé cómo traducir eso a mi pregunta anterior. Tampoco es la segunda respuesta más votada. Y así sucesivamente. Por eso creo que este post no tiene respuesta en otro sitio.

19voto

leech Puntos 122

He hecho esfuerzos en este sentido y me siento responsable de dar una respuesta. He escrito varias respuestas y preguntas sobre este tema. Probablemente algunas de ellas puedan ayudarte. Entre otras:

Regresión y causalidad en econometría

expectativa condicional y de intervención

modelo causal lineal

Ecuación estructural y modelo causal en economía

regresión y causalidad

¿Cuál es la relación entre la minimización del error de predicción y el error de estimación de los parámetros?

Diferencia entre el modelo de ecuaciones simultáneas y el modelo de ecuaciones estructurales

regresor endógeno y correlación

Muestreo aleatorio: Exogeneidad débil y fuerte

Probabilidad condicional y causalidad

Supuesto OLS - No debe haber correlación entre el término de error y la variable independiente y el término de error y la variable dependiente

¿Implica la homocedasticidad que las variables regresoras y los errores no están correlacionados?

Así que, toma:

Regresión y causalidad: Un examen crítico de seis libros de texto de econometría - Chen y Pearl (2013)

la respuesta a su pregunta

¿Bajo qué supuestos se puede interpretar una regresión de forma causal?

se da. Sin embargo, al menos en opinión de Pearl, la pregunta no está bien planteada. De hecho, algunos puntos deben ser fijados antes de "responder directamente". Además, el lenguaje utilizado por Pearl y sus colegas no son familiares en la econometría (todavía no).

Si buscas un libro de econometría que te de la mejor respuesta ya he hecho este trabajo por ti. Te sugiero: La econometría más inofensiva: An Empiricist's Companion - Angrist y Pischke (2009). Sin embargo, Pearl y sus colegas tampoco consideran exhaustiva esta presentación.

Así que permítame tratar de responder de la manera más concisa, pero también completa, posible.

Considere un proceso de generación de datos $\text{D}_X(x_1, ... , x_n|\theta)$ , donde $\text{D}_X(\cdot)$ es una función de densidad conjunta, con $n$ variables y conjunto de parámetros $\theta$ . Es bien sabido que una regresión de la forma $x_n = f(x_1, ... , x_{n-1}|\theta)$ es estimar una media condicional del conjunto distribución conjunta, es decir, $\text{E}(x_n|x_1,...,x_{n-1})$ . En el caso concreto caso de una regresión lineal, tenemos algo así como $$ x_n = \theta_0 + \theta_1 x_1 + ... + \theta_{n-1}x_{n-1} + \epsilon $$
La pregunta es: bajo qué supuestos de la DGP $\text{D}_X(\cdot)$ podemos inferir la regresión (lineal o no) representa una relación causal? ... ACTUALIZACIÓN : No estoy asumiendo ninguna estructura causal dentro de mi DGP.

El núcleo del problema está precisamente aquí. Todos los supuestos que usted invoca implican sólo informaciones puramente estadísticas; en este caso no hay formas de llegar a conclusiones causales. Al menos no de forma coherente y/o no ambigua. En tu razonamiento la DGP se presenta como una herramienta que realiza la misma información que puede ser codificada en la distribución de probabilidad conjunta; no más (se utilizan como sinónimo). El punto clave es que, como ha subrayado muchas veces Pearl, Los supuestos causales no pueden codificarse en una distribución de probabilidad conjunta ni en ningún concepto estadístico completamente atribuible a ella. La raíz de los problemas es que la distribución de probabilidad conjunta, y en particular las reglas de condicionamiento, funcionan bien con los problemas observacionales pero no pueden enfrentarse adecuadamente a los de intervención . Ahora bien, la intervención es el núcleo de la causalidad. Los supuestos causales tienen que quedar fuera de los aspectos distributivos. La mayoría de los libros de econometría caen en la confusión/ambigüedad/errores sobre la causalidad porque las herramientas que allí se presentan no permiten distinguir claramente entre los conceptos causales y los estadísticos.

Necesitamos algo más para plantear supuestos causales. El Modelo causal estructural (SCM) es la alternativa propuesta en la literatura de inferencia causal por Pearl. Así pues, El DGP debe ser precisamente el mecanismo causal que nos interesa, y nuestro MEC codifica todo lo que sabemos/suponemos sobre el DGP . Lea aquí para obtener más detalles sobre la DGP y la MEC en la inferencia causal: ¿Qué es la DGP en la inferencia causal?

Ahora. Usted, como la mayoría de los libros de econometría, invoca con razón exogeneidad Es un concepto causal:

Sin embargo, no estoy seguro de esta condición [exogeneidad]. Parece demasiado débil para para abarcar todos los posibles argumentos contra la regresión que implica causalidad. De ahí mi pregunta anterior.

Comprendo bien su perplejidad al respecto. En realidad, muchos problemas se mueven en torno a la "condición de exogeneidad". Es crucial y puede ser suficiente en un sentido bastante general pero hay que utilizarlo adecuadamente. Sígueme.

La condición de exogeneidad debe escribirse en una ecuación estructural-causal (error), ninguna otra . Seguramente no en algo como regresión de la población (concepto genuino pero erróneo en este caso). Pero ni siquiera cualquier tipo de "modelo verdadero/DGP" que no tenga un significado causal claro. Por ejemplo, ningún concepto absurdo como el de "regresión verdadera" utilizado en algunas presentaciones. También conceptos vagos/ambiguos como "modelo lineal" se utilizan mucho, pero no son adecuados aquí.

No basta con una condición estadística más o menos sofisticada si se incumple el requisito anterior. Algo así como: exogeneidad débil/estricta/fuerte predeterminabilidad pasado, presente, futuro ortogonalidad/correlación/independencia/independencia media/independencia condicional .. regresores estocásticos o no estocásticos .. ecc. Ninguno de ellos y los conceptos relacionados son suficientes si se refieren a algún error/ecuación/modelo que no tiene significado causal desde su origen. Necesitas una ecuación estructural-causal.

Ahora, usted y algunos libros de econometría, invocan algo así como: experimentos , aleatorización y conceptos relacionados. Esta es una forma correcta. Sin embargo, puede ser utilizado de forma no adecuada como en el caso del manual de Stock y Watson (si quieres puedo dar detalles). Incluso Angrist y Pischke se refieren a los experimentos pero introducen también el concepto estructural-causal en el núcleo de su razonamiento ( modelo causal lineal - capítulo 3 pag 44). Además, en mis comprobaciones, son los únicos que introducen los conceptos de malos controles . Esta historia suena como problema de las variables omitidas pero aquí no sólo se invoca la condición de correlación sino también el nexo causal (pag 51).

Ahora, existe en la literatura un debate entre "estructuralistas vs experimentalistas". En opinión de Pearl, este debate es retórico. Brevemente, para él el enfoque estructural es más general y poderoso el experimental se reduce a lo estructural. De hecho, las ecuaciones estructurales pueden considerarse como un lenguaje para codificar un conjunto de experimentos hipotéticos.

Dicho esto, respuesta directa. Si la ecuación:

$$ x_n = \theta_0 + \theta_1 x_1 + ... + \theta_{n-1}x_{n-1} + \epsilon $$

es un modelo causal lineal como este: modelo causal lineal

y la condición de exogeneidad como $$ \text{E}[\epsilon |x_1, ... x_{n-1}] = 0$$ aguantar.

Entonces una regresión lineal como:

$$ x_n = \beta_0 + \beta_1 x_1 + ... + \beta_{n-1}x_{n-1} + v $$

tiene un significado causal. O mejor todo $\beta$ s identifica $\theta$ s y tienen un claro significado causal (véase la nota 3).

En opinión de Angrist y Pischke, los modelos como el anterior se consideran antiguos. Ellos prefieren distinguir entre variable causal (s) (normalmente sólo uno) y variables de control (leer: Instrucción de econometría para estudiantes: A través de nuestras clases, en la oscuridad - Angrist y Pischke 2017). Si se selecciona el conjunto correcto de controles se consigue un significado causal para el parámetro causal. Para seleccionar los controles adecuados, para Angrist y Pischke hay que evitar los malos controles. La misma idea se utiliza incluso en el enfoque estructural, pero en él está bien formalizado en el criterio de la puerta trasera [respuesta en: Chen y Pearl (2013)]. Para conocer algunos detalles sobre este criterio, lea aquí: Efecto causal de los ajustes por la puerta trasera y la puerta delantera

Como conclusión. Todo lo anterior dice que la regresión lineal estimada con MCO, si se utiliza correctamente, puede ser suficiente para la identificación de los efectos causales. Luego, en la econometría y en otros lugares se presentan otros estimadores también, como el IV ( Variables instrumentales estimadores) y otros, que tienen fuertes vínculos con la regresión. También pueden ayudar a identificar los efectos causales, de hecho fueron diseñados para ello. Sin embargo, la historia anterior se mantiene. Si los problemas anteriores no se resuelven, los mismos, o relacionados, se comparten en las técnicas de IV y/o otras.

Nota 1 : He observado en los comentarios que usted pregunta algo así como: "¿Tengo que definir la direccionalidad de la causalidad?" Sí, debe hacerlo. Este es un supuesto causal clave y una propiedad clave de las ecuaciones estructurales-causales. En la vertiente experimental, hay que saber bien cuál es la variable de tratamiento y cuál la de resultado.

Nota 2 :

Así que, esencialmente, la cuestión es si un coeficiente representa una profunda parámetro o no, algo que nunca jamás puede deducirse de (es decir es decir, no está asegurado solo por) los supuestos de exogeneidad, sino sólo de teoría. ¿Es una interpretación justa? La respuesta a la pregunta sería entonces "trivial" (lo que está bien): se puede cuando la teoría lo dice así. Que ese parámetro se pueda estimar de forma consistente o no, eso es una cuestión totalmente diferente. La consistencia no implica causalidad. En ese sentido, la exogeneidad por sí sola nunca es suficiente.

Me temo que su pregunta y su respuesta provienen de un malentendido. Estos provienen de la confusión entre conceptos causales y puramente estadísticos . No me sorprende porque, Por desgracia, esta confusión se hace en muchos libros de econometría y representa un tremendo error en la literatura econométrica.

Como he dicho más arriba y en los comentarios, la mayor parte de los errores provienen de una definición ambigua y/o errónea del DGP (=modelo verdadero). La definición ambigua y/o errónea de la exogeneidad, es una consecuencia. La conclusión ambigua y/o errónea sobre la cuestión viene de eso. Como dije en los comentarios, los puntos débiles de las respuestas duplicadas y de Dimitriy V. Masterov provienen de estos problemas.

Hace años que empecé a enfrentarme a estos problemas, y empecé con la pregunta "¿La exogeneidad implica causalidad? ¿O no? Si es así, ¿qué forma de exogeneidad es necesaria?". Consulté al menos una docena de libros (los más difundidos estaban incluidos) y muchas otras presentaciones/artículos sobre los puntos. Había muchas similitudes entre ellos (obvio) pero encontrar dos presentaciones que compartan precisamente las mismas definiciones/supuestos/conclusiones era casi imposible.
De ellos, a veces parecía que la exogeneidad era suficiente para la causalidad, a veces no, a veces dependía de la forma de exogeneidad, a veces no se decía nada. Como resumen, incluso si algo como la exogeneidad se utilizó en todas partes, las posiciones pasaron de "la regresión nunca implica causalidad" a "la regresión implica causalidad". Me temía que hubiera algún contracircuito pero sólo cuando me encontré con el artículo citado anteriormente, Chen y Pearl (2013), y la literatura de Pearl más en general, me di cuenta de que mi temor estaba bien fundado. Soy amante de la econometría y sentí decepción cuando me di cuenta de este hecho. Lee aquí para saber más sobre eso: ¿Cómo responderían los econometristas a las objeciones y recomendaciones planteadas por Chen y Pearl (2013)?

Ahora, la condición de exogeneidad es algo así como $E[\epsilon|X]=0$ pero su significado depende fundamentalmente de $\epsilon$ . ¿Qué es?

La peor posición es que represente algo así como el "error de regresión poblacional/residual" (DGP=regresión poblacional). Si además se impone la linealidad, esta condición es inútil. Si no, esta condición impone una restricción de linealidad a la regresión, nada más. No se permiten conclusiones causales. Lea aquí: La regresión y el CEF

Otra postura, la más extendida hasta ahora, es que $\epsilon$ es algo así como "error verdadero", pero la ambigüedad de DGP/modelo verdadero se comparte allí también. Aquí está la niebla, en muchos casos no se dice casi nada pero el punto común habitual es que se trata de un "modelo estadístico" o simplemente de un "modelo". A partir de ahí, la exogeneidad implica imparcialidad/consistencia. Nada más. No se puede deducir ninguna conclusión causal, como has dicho. Entonces, las conclusiones causales provienen de la "teoría" (teoría económica) como tú y algunos libros sugieren. En esta situación las conclusiones causales sólo pueden llegar al final de la historia, y se fundamentan en algo así como un, nebuloso, "juicio de expertos". Nada más. Esta me parece una posición insostenible para la teoría econométrica. Esta situación es inevitable si, como has dicho (implícitamente), la exogeneidad se queda en la parte estadística y la teoría económica (u otros campos) en otra.

Debemos cambiar de perspectiva. La exogeneidad es, también históricamente, un concepto causal y, como he dicho anteriormente, debe ser un supuesto causal y no sólo estadístico. La teoría económica se expresa también en términos de exogeneidad; van juntos . En otras palabras, los supuestos que usted busca y que nos permiten la conclusión causal para la regresión, no pueden permanecer en la propia regresión. Estos supuestos deben permanecer fuera, en un modelo causal estructural. Necesitas dos objetos, no sólo uno. El modelo causal estructural representa los supuestos teórico-causales, la exogeneidad está entre ellos y es necesaria para la identificación. La regresión representa la estimación (bajo otro supuesto puramente estadístico). A veces, la literatura econométrica tampoco distingue claramente entre la regresión y el modelo verdadero, y a veces se hace la distinción pero el papel del modelo verdadero (o DGP) no está claro. De aquí proviene la confusión entre los supuestos causales y estadísticos; en primer lugar, un papel ambiguo para la exogeneidad.

La condición de exogeneidad debe escribirse sobre el error causal estructural . Formalmente, en el lenguaje de Pearl (formalmente lo necesitamos) la condición de exogeneidad se puede escribir como

$E[\epsilon |do(X)]=0$ que implican

$E[Y|do(X)]=E[Y|X]$ condición de identificabilidad

en este sentido la exogeneidad implica causalidad.

Lea también aquí: Muestreo aleatorio: Exogeneidad débil y fuerte

Además en este artículo: TRYGVE HAAVELMO Y LA APARICIÓN DEL CÁLCULO CAUSAL - Pearl (2015). Se tratan algunos de los puntos anteriores.

Para ver algunos datos sobre la causalidad en el modelo lineal, lea aquí: Modelos lineales: Un "microscopio" útil para el análisis causal - Perla (2013)

Para una presentación accesible de la literatura de Pearl, lea este libro: JUDEA PEARL, MADELYN GLYMOUR, NICHOLAS P. JEWELL - INFERENCIA CAUSAL EN ESTADÍSTICA: UN PRIMER http://bayes.cs.ucla.edu/PRIMER/

Nota 3 : Más precisamente, es necesario decir que $\theta$ s seguramente representan el llamado efectos causales directos pero sin supuestos adicionales no es posible decir si representan la efectos causales totales también. Obviamente, si hay confusión sobre la causalidad, no es posible abordar esta distinción de segunda vuelta.

11voto

blembo Puntos 3

He aquí una respuesta parcial para cuando el modelo subyacente es realmente lineal. Supongamos que el verdadero modelo subyacente es $$Y = \alpha + \beta X + v.$$

No estoy haciendo suposiciones sobre $v$ , aunque tenemos que $\beta$ es el efecto de $X$ en $Y$ . Una regresión lineal para $\beta$ que denotaremos como $\tilde{\beta}$ es simplemente una relación estadística entre $Y,X$ y tenemos $$\tilde{\beta} = \frac{cov(Y,X)}{var(X)}.$$

Así que una respuesta ya "barata" (que ya has mencionado) es que una regresión lineal identifica un efecto causal cuando la covarianza corresponde a un efecto causal y no sólo a una relación estadística. Pero intentemos hacerlo un poco mejor.

Centrándonos en la covarianza, tenemos \begin{align*} cov(Y,X) & = cov(\alpha + \beta X + v, X)\\ & = \beta cov(X,X) + cov(v,X) \\ & = \beta var(X) + cov(v,X), \end{align*}

y así dividir por la varianza de $X$ , obtenemos que $$ \tilde{\beta} = \beta + \frac{cov(v,X)}{var(X)}.$$

Necesitamos $cov(v,X) = 0$ para $\tilde{\beta} = \beta$ . Sabemos que $$cov(v,X) = E[vX] - E[v]E[X],$$ y necesitamos que sea cero, lo que es cierto si y sólo si $E[vX] = E[v]E[X]$ que es verdadera si y sólo si $v$ y $X$ no están correlacionados. Una condición suficiente para esto es la independencia de la media, similar a lo que usted escribió: es decir, que $E[X|v] = E[X]$ para que $E[vX] = E[E[X|v]v] = E[X]E[v]$ (como alternativa, puede dejar que $v' = v - E[V]$ y requieren $E[v'|X]= 0$ para que $E[v'X] - E[v']E[X] = 0$ que se suele hacer en el análisis de regresión). Todo el lenguaje "intuitivo" que citas en otros posts son varias formas de pensar concretamente en que tales supuestos se mantienen en la aplicación. Dependiendo del campo, los términos, los conceptos y los enfoques serán diferentes, pero todos tratan de conseguir que este tipo de suposiciones se mantengan.

Tu comentario también me ha hecho ver que es importante recalcar mi suposición de "el verdadero modelo subyacente". Estoy definiendo $Y$ como yo. En muchas situaciones, puede que no sepamos qué $Y$ es, y dependiendo del campo, es precisamente por lo que las cosas se vuelven "menos rigurosas" en cierto sentido. Porque ya no se da por sentada la propia especificación del modelo. En algunos campos, como la inferencia causal en estadística, se puede pensar en estas cuestiones utilizando DAGs o la idea de separación d. En otros, como la economía, se podría empezar con un modelo de cómo se comportan los individuos o las empresas y sacar un modelo verdadero a través de ese enfoque, etc.

Como nota final, observe que en este caso, el supuesto de independencia condicional de la media es más fuerte que lo que usted necesita (usted "sólo" necesita que la covarianza sea cero). Esto se debe al hecho de que he especificado una relación lineal, pero debería ser intuitivo que imponer menos estructura en el modelo y apartarse de una regresión lineal necesitará más fuerte hipótesis más cercanas a la noción de que el término de error es independiente de la media (o totalmente independiente) de $X$ para obtener un efecto causal (que también se vuelve más complicado de definir.. un enfoque podría ser pensar en el parcial de $Y$ wrt $X$ ).

4voto

user164061 Puntos 281

La pregunta es: bajo qué supuestos de la DGP $\text{D}_X(\cdot)$ ¿podemos inferir que la regresión (lineal o no) representa una relación causal?

Es bien sabido que los datos experimentales sí permiten esa interpretación. Por lo que puedo leer en otros lugares, parece que la condición requerida en la DGP es la exogeneidad:

$$ \text{E}(x_1, ... x_{n-1}|\epsilon) = 0$$

La regresión por sí sola no puede interpretarse de forma causal. En efecto, "correlación ≠ causalidad". Puedes ver esto con los datos correlacionados en la imagen de abajo. La imagen es simétrica (los pares x,y siguen una distribución normal bivariada) y la regresión no dice si Y es causada por X o viceversa.

Se puede interpretar que el modelo de regresión representa una relación causal cuando la causalidad es explícitamente parte del proceso de generación de datos relacionados. Este es el caso, por ejemplo, cuando el experimentador realiza un experimento en el que una variable es controlada/cambiada por el experimentador (y el resto se mantiene igual, o se supone que es igual), por ejemplo, un estudio de tratamiento o en un estudio observacional cuando suponemos que hay una variable instrumental .

Así que son los supuestos explícitos sobre la causalidad en la DGP los que hacen que una regresión se relacione con una relación causal. Y no las situaciones en las que los datos siguen una determinada relación como $\text{E}(x_1, ... x_{n-1}|\epsilon) = 0$

symmetry

Sobre la enfermedad $\text{E}(x_1, ... x_{n-1}|\epsilon) = 0$

Creo que esto debería ser $\text{E}(\epsilon | x_1, ... x_{n-1}) = 0$ . El $\text{E}(x_1, ... x_{n-1}|\epsilon) = 0$ ya se viola fácilmente cuando todos los $x_i>0$ o si usas datos estandarizados entonces se viola cuando hay heteroscedasticidad. O tal vez usted cambió el significado de X|Y como condicional en X en lugar de condicional en Y?

La condición por sí sola no asegura que su modelo de regresión deba ser interpretado causalmente. En el ejemplo anterior (la imagen) se puede utilizar una regresión $x_1 = x_2 +\epsilon$ o $x_2 = x_1 +\epsilon$ y para ambos casos la condición es verdadera (se puede suponer que es verdadera), pero eso no la convierte en una relación causal, al menos una (posiblemente las dos) de las dos regresiones no se puede interpretar causalmente.

La suposición de que el modelo lineal es causal es el factor clave para asegurar que el modelo de regresión puede interpretarse de forma causal. La condición es necesaria cuando se desea asegurar que la estimación de un parámetro en un modelo lineal se relaciona completamente con el modelo causal y no parcialmente con el ruido y las variables de confusión también. Así que sí, esta condición está relacionada con una interpretación de la regresión como modelo causal, pero esta interpretación comienza con una suposición explícita de un mecanismo causal en el proceso de generación de datos.

La condición está más relacionada con asegurar que el efecto causal (cuyo tamaño del efecto se desconoce) se estima adecuadamente mediante una regresión de mínimos cuadrados ordinarios (asegurar que no hay sesgo), pero la condición no está relacionada con una condición suficiente que convierta una regresión en un modelo causal.

Tal vez el $\epsilon$ ¿se refiere a algún error verdadero en un modelo teórico/mecánico/ab-initio (por ejemplo, algún proceso aleatorio específico que crea el término de ruido como las tiradas de dados, el recuento de partículas en la radiación, la vibración de las moléculas, etc.)? Entonces la pregunta podría ser un poco semántica. Si está definiendo un $\epsilon$ que es el verdadero error en un modelo lineal, entonces estás definiendo implícitamente el modelo estadístico como igual al modelo que es el proceso de generación de datos. Entonces no es realmente la condición de exogeneidad la que hace que la regresión lineal pueda ser interpretada causalmente, sino la definición/interpretación implícita de $\epsilon$ .

3voto

Neal Puntos 316

Que el verdadero DGP (que se definirá más adelante) sea

$$y=\mathbf{X}\beta + \mathbf{z}\alpha + \mathbf{v},$$

donde $\mathbf{X}$ y $\mathbf{z}$ son regresores, y $\mathbf{z}$ es un $n \times 1$ para simplificar (puedes pensar en él como un índice de muchas variables si te parece restrictivo). $\mathbf{v}$ no está relacionado con $\mathbf{X}$ y $\mathbf{z}$ .

Si $z$ se deja fuera del modelo OLS,

$$\hat \beta_{OLS} = \beta + (N^{-1}\mathbf{X}'\mathbf{X})^{-1}(N^{-1}\mathbf{X}'\mathbf{z})\alpha+(N^{-1}\mathbf{X}'\mathbf{X})^{-1}(N^{-1}\mathbf{X}'\mathbf{v}).$$

Bajo el supuesto de no correlación, el tercer término tiene un $\mathbf{plim}$ de cero, pero $$\mathbf{plim}\hat \beta_{OLS}=\beta + \mathbf{plim} \left[ (N^{-1}\mathbf{X}'\mathbf{X})^{-1}(N^{-1}\mathbf{X}'\mathbf{z}) \right] \alpha.$$

Si $\alpha$ es cero o $\mathbf{plim} \left[ (N^{-1}\mathbf{X}'\mathbf{X})^{-1}(N^{-1}\mathbf{X}'\mathbf{z}) \right] = 0$ entonces $\beta$ puede ser interpretado causalmente. En general, la incoherencia puede ser positiva o negativa.

Por lo tanto, hay que conseguir la forma funcional correcta, e incluir todas las variables que importan y están correlacionadas con los regresores de interés.

Hay otro buen ejemplo aquí .


Creo que este puede ser un buen ejemplo para intuir cuándo los parámetros pueden tener una interpretación causal. Esto pone al descubierto lo que significa tener una verdadero DGP o el tienen la forma funcional correcta.

Digamos que tenemos un SEM/DGP como este:

$$y_1 = \gamma_1 + \beta_1 y_2 + u_1,\quad 0<\beta_1 <1, \quad y_2=y_1+z_1$$

Aquí tenemos dos variables endógenas (el $y$ s), una única variable exógena $z_1$ una perturbación aleatoria no observada $u_1$ una relación estocástica que vincula a los dos $y$ s, y una identidad de definición que vincula las tres variables. También tenemos una restricción de desigualdad para evitar dividir por cero a continuación. La variación de $z_1$ es exógena, por lo que es como una intervención casual que "menea" las cosas. Este movimiento tiene un efecto directo sobre $y_2$ pero también hay una indirecta a través de la primera ecuación.

Supongamos que un estudiante inteligente, que ha prestado atención a las lecciones sobre simultaneidad, escribe un modelo de forma reducida para $y_1$ y $y_2$ en términos de $z_1$ : $$\begin{align} y_1 =& \frac{\gamma_1}{1-\beta_1} + \frac{\beta_1}{1-\beta_1} z_1 + \frac{u_1}{1-\beta_1} \\ =& E[y_1 \vert z_1] + v_1 \\ y_2 =& \frac{\gamma_1}{1-\beta_1} + \frac{1}{1-\beta_1} z_1 + \frac{u_1}{1-\beta_1} \\ =& E[y_2 \vert z_1] + v_1, \end{align}$$

donde $v_1 = \frac{u_1}{1- \beta_1}$ . Los dos coeficientes de $z_1$ tienen una interpretación causal. Cualquier cambio externo en $z_1$ hará que el $y$ s a cambiar por esas cantidades. Pero en el SEM/DGP, los valores de $y$ s también responden a $u_1$ . Para separar los dos canales, necesitamos $z_1$ y $u_1$ que sean independientes para no confundir las dos fuentes. Esa es la condición bajo la cual los efectos causales de $z$ se identifican. Pero probablemente esto no es lo que nos interesa aquí.

En el SEM/DGP,

$$\frac{\partial y_1}{\partial y_2} = \beta_1 =\frac{\partial y_1}{\partial z_1} \div \frac{\partial y_2}{\partial z_1} =\frac{ \frac{\beta_1}{1-\beta_1}}{ \frac{1}{1-\beta_1}}.$$

Sabemos que podemos recuperar $\beta_1$ a partir de los dos coeficientes de la forma reducida (suponiendo la independencia de $z_1$ y $u_1$ ).

Pero ¿qué significa para $\beta_1$ para ser el efecto causal de $y_2$ en $y_1$ cuando se determinan conjuntamente? Todos los cambios provienen de $z_1$ y $u_1$ (como aclara la ecuación de forma reducida), y $y_2$ es sólo una causa intermedia de $y_1.$ Así, la primera ecuación estructural nos da un impacto "instantáneo", pero las ecuaciones de forma reducida nos dan un impacto de equilibrio tras permitir que las variables endógenas se "asienten".

Dado un sistema de ecuaciones lineales, existen condiciones formales para cuando los parámetros como $\beta_1$ son recuperables. Pueden ser un DAG o un sistema de ecuaciones. Pero todo esto viene a decir que no se puede recuperar si algo es "causal" a partir de una única ecuación lineal y algunas suposiciones sobre la exogeneidad. Siempre hay algún modelo al acecho, aunque no se reconozca como tal. Eso es lo que significa acertar con la DGP, y ese es un ingrediente crucial.

3voto

Jay Killeen Puntos 101

Respuesta corta:

No hay una forma explícita de demostrar la causalidad. Todas las afirmaciones de causalidad deben derivarse lógicamente, es decir, a través del sentido común (teoría). Imagínese que dispone de un operador (como la correlación) que devuelva la causalidad o la no causalidad entre variables: podría identificar perfectamente las fuentes y las relaciones de cualquier cosa en el universo (por ejemplo, en qué/quién repercutiría una subida de intereses; qué producto químico curaría el cáncer, etc.). Evidentemente, esto es idealista. Todas las conclusiones de causalidad se hacen mediante inferencias (inteligentes) a partir de las observaciones.


Respuesta larga :

La cuestión de qué variables causan otra es filosófica, en el sentido de que debe determinarse lógicamente. Para mí, la forma más clara de ver esto es a través de los 2 ejemplos clásicos de un experimento controlado vs no controlado. Los repasaré haciendo hincapié en cuánto hay de estadística y cuánto de sentido común (lógica).

1. Experimento controlado: fertilizante

Suponga que tiene un campo agrícola dividido en parcelas (cuadrados). Hay parcelas en las que los cultivos $(y)$ crecen con y sin luz solar $(X_1)$ con y sin buenos nutrientes $(X_2)$ . Queremos ver si un determinado abono ( $X_3$ ) influye o no en el rendimiento de la cosecha $y$ . Que el DGP sea: $y_i = \beta_0+\beta_1 X_{1i}+\beta_2 X_{2i}+\beta_3 X_{3i} +\varepsilon_i$ . Aquí $\varepsilon_i$ representa la aleatoriedad inherente al proceso, es decir, la aleatoriedad que tendríamos al predecir el rendimiento de la cosecha, incluso si se conociera esta verdadera DGP.

Exogeneidad: [saltar si está claro]

La hipótesis de exogeneidad fuerte $E[\varepsilon_i|\textbf{X}]=0$ que usted menciona es necesario para que los coeficientes estimados por OLS $\hat\beta$ para ser imparcialidad (no causal). Si $E[\varepsilon_i|\textbf{X}]=c$ donde $c$ es cualquier constante, todos los $\hat{\beta_j}$ excepto la intercepción $\hat{\beta_0}$ siguen siendo imparciales. Dado que estamos interesados en $\beta_3$ esto es suficiente. (Nota al margen: otros supuestos más débiles como la exogeneidad débil y la ortogonalidad entre $X$ y $\varepsilon$ son suficientes para la imparcialidad). Decir que $E[X|Z]=c$ para 2 variables aleatorias cualesquiera $X$ y $Z$ significa que $X$ no depende sistemáticamente en la media de $Z$ es decir, si tomo la media ( $\to\infty$ ) de $X$ para cualquier par de $(X,Z)$ Obtendré (aproximadamente) el mismo valor cada vez, así que sabiendo $Z$ no ayuda en absoluto a predecir la media de $X$ (por ejemplo $E[X|Z=10]=E[X|Z=10000]=E[X|Z=-5]=E[X]=c$ )

¿Por qué es interesante? Recuerda que queremos saber si el fertilizante $X_3$ tiene un impacto o no ( $\beta_3=0?$ ) sobre el rendimiento de la cosecha $y$ . Al rociar con fertilizante las parcelas aleatorias, "forzamos" implícitamente la exogeneidad de $X_3$ en comparación con todos los demás regresores. ¿Cómo? Bien, si rociamos aleatoriamente con fertilizante una parcela, no importa si tiene luz solar o no, si tiene buenos nutrientes o no y si luego tomamos el valor medio del fertilizante para las parcelas soleadas, será el mismo que el valor medio para las parcelas no soleadas. Lo mismo ocurre con las parcelas ricas en nutrientes. Por ejemplo: los resultados de la tabla siguiente se mantienen aproximadamente para números grandes. Al fin y al cabo, tiene sentido que, si $X_3$ es independiente de $X_1$ su media no debería cambiar (significativamente) ya que $X_1$ cambios. enter image description here

Así que, en otras palabras $X_3$ es exógena con respecto a $X_1,X_2$ es decir $E[X_3|X_1,X_2]=c$ . Esto significa que, efectivamente, si queremos estimar $\beta_3$ imparcialmente, no necesitamos $X_1,X_2$ . Por lo tanto, estas dos variables (sol, nutrientes) pueden tratarse como aleatorias e incorporarse al término de ruido, dando lugar a la regresión: $y_i = \beta_0 + \beta_3 X_{3i} + \epsilon_i$ , donde $\epsilon_i = \beta_1 X_{1i} + \beta_2 X_{2i} + \varepsilon_i$ . Por lo tanto, el término de ruido también puede interpretarse como un conjunto de todas las demás variables que influyen en la respuesta $y$ pero no de forma sistemática en la media. (Tenga en cuenta que $\hat\beta_0$ está sesgada; observe además que la exogeneidad es más débil que la independencia, ya que las variables podrían estar relacionadas en un momento superior en lugar de la media, como la varianza, pero la exogeneidad seguiría manteniéndose, véase la heteroscedasticidad).

Causalidad:

Ahora bien, ¿dónde entra en juego la causalidad? Hasta ahora sólo hemos demostrado que distribuir aleatoriamente el abono en parcelas mejores o peores nos permite observar únicamente el rendimiento de los cultivos y el abono, sin tener en cuenta las demás variables (sol, nutrientes), es decir, "forzando" la exogeneidad del abono y, por tanto, todas las demás variables en el término de ruido. La causalidad en sí misma no fue ni será demostrada. Sin embargo, si $\hat\beta_3$ resulta ser significativa, podemos concluir lógicamente que, puesto que la aleatorización del fertilizante lo "desvincula" efectivamente de todas las demás variables (en la media), debe tener un impacto en el rendimiento de los cultivos, ya que todas las demás variables no tienen un impacto sistemático en este escenario.

En otras palabras: 1) utilizamos la exogeneidad para demostrar estadísticamente que esta es la condición que necesitamos para obtener estimadores insesgados (para OLS); 2) utilizamos la aleatorización para conseguir esta exogeneidad y deshacernos de otras variables sin interés; 3) nosotros lógicamente concluyó que, como hay una relación positiva, debe ser una relación causal.

Obsérvese que 3) es sólo una conclusión de sentido común, no hay estadísticas como en 1) o 2). Teóricamente podría ser erróneo, ya que, por ejemplo, podría ser que el fertilizante fuera realmente un "placebo" ( $\beta_3=0$ ) pero se distribuyó sólo en las parcelas soleadas y ricas en nutrientes por puro azar. En ese caso, la regresión mostraría erróneamente un coeficiente significativo porque el fertilizante obtendría todo el crédito de las parcelas buenas, cuando en realidad no hace nada. Sin embargo, con un gran número de parcelas esto es tan improbable que es muy razonable concluir la causalidad.

2. Experimento no controlado: salario y educación

[Eventualmente (?) volveré con una edición para continuar aquí más tarde; temas a tratar OVB,Granger-causalidad y causalidad instantánea en procesos VAR]


Esta pregunta es precisamente la razón por la que empecé a aprender estadística/ciencia de datos: reducir el mundo real a un modelo. La verdad, el sentido común y la lógica son la esencia. Gran pregunta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X