Una regresión de <span class="math-container">$y$</span> <span class="math-container">$x$</span> no necesita ser causal si existen variables omitidas que influyen <span class="math-container">$x$</span> y <span class="math-container">$y$</span>. ¿Pero si no fuera por las variables omitidas y error de medición, es una regresión causal? ¿Es decir, si cada variable posible está incluido en la regresión?
Respuestas
¿Demasiados anuncios?No, no, yo te mostraré algunos contraejemplos.
La primera es la inversa de la relación de causalidad. Considere el modelo causal es $Y \rightarrow X$, donde $X$ e $Y$ son de gauss estándar variables aleatorias. A continuación, $E[Y|do(x)] = 0$, desde el $X$ no causa $Y$, pero $E[Y|x]$ dependerá $X$.
El segundo ejemplo es el control de aceleradores de partículas. Considere el modelo causal $X \rightarrow Z \leftarrow Y$, que es $X$ no causa $Y$ e $Z$ es una causa común. Pero tenga en cuenta que, si se ejecuta una regresión incluyendo $Z$, el coeficiente de regresión de $X$ no será cero, porque acondicionado en la causa común inducirá a la asociación entre la $Y$ e $X$ (si lo desea puede ver aquí también la Ruta de Análisis en la Presencia de una Condición Previa de Hadrones).
De manera más general, la regresión de $Y$ a $X$ será causal si las variables incluidas en la regresión de satisfacer la puerta trasera criterio.
Además de Carlos Cinelli importante responder a esta pregunta, hay un par de razones más por las que los coeficientes de regresión no podría ser causal.
En primer lugar, el modelo de misspecification puede causar los parámetros a ser no-causal. Sólo porque usted tiene todas las variables relevantes en el modelo no significa que se haya ajustado para ellos de la manera correcta. Como un ejemplo muy simple, considere la posibilidad de una variable $X$ es distribuida de forma simétrica alrededor de 0. Supongamos que la variable de resultado $Y$ es afectado por $X$ de tal manera que $E(Y\mid X)=X^2$. La regresión $Y$ a $X$ (en lugar de a $X^2$) se le dará un estimado del coeficiente de $X$ de alrededor de 0, claramente sesgada, que a pesar de haber ajustado para todos (la única variable que afecta a $Y$.
En segundo lugar, y relacionado con el tema de la causalidad inversa, también existe el riesgo de que usted puede tener el sesgo de selección, es decir, que la muestra ha sido seleccionada de tal manera que no es representativo de la población a la que desea llamar su inferencia. Además, la falta de datos también puede introducir un sesgo si los datos no faltan completamente al azar.