En primer lugar, que no cunda el pánico. Sí, hay muchas preguntas similares en este sitio. Pero creo que ninguna da una respuesta concluyente a la pregunta de abajo. Por favor, tenga paciencia conmigo.
Considere un proceso de generación de datos $\text{D}_X(x_1, ... , x_n|\theta)$ , donde $\text{D}_X(\cdot)$ es una función de densidad conjunta, con $n$ variables y conjunto de parámetros $\theta$ .
Es bien sabido que una regresión de la forma $x_n = f(x_1, ... , x_{n-1}|\theta)$ es estimar una media condicional de la distribución conjunta, a saber $\text{E}(x_n|x_1,...,x_{n-1})$ . En el caso concreto de una regresión lineal, tenemos algo así como
$$ x_n = \theta_0 + \theta_1 x_1 + ... + \theta_{n-1}x_{n-1} + \epsilon $$
La pregunta es: bajo qué supuestos de la DGP $\text{D}_X(\cdot)$ ¿podemos inferir que la regresión (lineal o no) representa una relación causal?
Es bien sabido que los datos experimentales sí permiten esa interpretación. Por lo que puedo leer en otros lugares, parece que la condición requerida en la DGP es la exogeneidad:
$$ \text{E}(x_1, ... x_{n-1}|\epsilon) = 0$$
La naturaleza de la aleatoriedad de los datos experimentales garantiza lo anterior. La historia pasa a argumentar por qué los datos observacionales normalmente no logran alcanzar tal condición, razones que incluyen el sesgo de las variables omitidas, la causalidad inversa, la autoselección, los errores de medición, etc.
Sin embargo, tengo dudas sobre esta condición. Parece demasiado débil para abarcar todos los posibles argumentos contra la regresión que implica causalidad. De ahí mi pregunta anterior.
ACTUALIZACIÓN : No estoy asumiendo ninguna estructura causal dentro de mi DGP. Estoy asumiendo que la DGP es completa, en el sentido de que debe haber alguna causalidad (una posición ontológica que bien podría debatirse), y todas las variables relevantes están incluidas. La clave es identificar el conjunto de supuestos que me aseguran que la causalidad va de unas variables a otras, sin asumir desde el principio tal dirección de la causalidad.
Muchas publicaciones similares en el sitio web dedican tiempo a mencionar por qué la correlación no implica causalidad, sin aportar argumentos contundentes sobre cuándo lo hace. Es el caso, por ejemplo, de este un puesto muy popular. Además, en el el puesto más popular en el sitio sobre el tema, la respuesta aceptada da la respuesta muy vaga:
Exponga todas las variables ocultas y tendrá la causalidad.
No sé cómo traducir eso a mi pregunta anterior. Tampoco es la segunda respuesta más votada. Y así sucesivamente. Por eso creo que este post no tiene respuesta en otro sitio.