Imagina que te piden que infieras un efecto causal, un cambio en un resultado $y$ en respuesta a alguna variable $x$ . Pero, la persona que te lo pide te indica que utilices un modelo predictivo para hacerlo. Esta es la configuración:
- $x$ se confunde en la medida en que hay algo no observado $u$ que está causalmente vinculada tanto a $y$ y $x$ . Tenemos un sesgo clásico de variables omitidas.
- Tenemos covariables de alta dimensión $\mathbf{Z}$ que no son independientes de $y$ o $x$ y/o $u$
- Se le pide que entrene un conjunto de modelos predictivos (redes neuronales, árboles potenciados, etc.) denominados $g_i([x, \mathbf{Z}]) + \epsilon$ donde $i$ indexa diferentes modelos y, a continuación, selecciona entre ellos el modelo $i$ que minimice alguna métrica de habilidad predictiva. RMSE, por ejemplo.
- Basándose en el modelo elegido, se le pide que informe sobre $$ \frac{\partial \hat{y}}{\partial x} = \frac{\partial \hat{g}_i([x, \mathbf{Z}])}{\partial x} $$
- Sabes que $$ E\left[\frac{\partial \hat{y}}{\partial x}\right] \neq \frac{\partial y}{\partial x} $$ en la población, ya que el término de error incluye la variable omitida, por lo que $$ \frac{\partial \epsilon}{\partial x} \neq 0 \text{ in the population, despite the fact that } \frac{\partial \hat\epsilon}{\partial x} = 0 $$ en cualquier modelo razonable $g$ .
Además del sesgo por variables omitidas, también puede haber sesgo por regularización.
- Supongamos además que se dispone de un modelo causal, por ejemplo una regresión de variables instrumentales, que utiliza un instrumento adecuado. $w$ para $x$ . Es uno de los modelos de su conjunto de modelos, pero su capacidad predictiva en términos de RMSE validado cruzado es peor que la de los demás.
El mejor modelo es el que produce la estimación causal consistente, ¿verdad? Pero..:
¿Cómo se lo explicaría a alguien en términos sencillos?
La persona que pide el análisis no entiende la inferencia causal y necesita que la eduquen. Sin embargo, no entienden de matemáticas y tienen poca capacidad de atención. ¿Cómo se puede transmitir eficazmente la idea básica de que los métodos causales son necesarios y los métodos predictivos son inadecuados? Nada de matemáticas, muchas historias, frases concisas.