27 votos

Explique en términos sencillos por qué los modelos predictivos no son interpretables causalmente.

Imagina que te piden que infieras un efecto causal, un cambio en un resultado $y$ en respuesta a alguna variable $x$ . Pero, la persona que te lo pide te indica que utilices un modelo predictivo para hacerlo. Esta es la configuración:

  • $x$ se confunde en la medida en que hay algo no observado $u$ que está causalmente vinculada tanto a $y$ y $x$ . Tenemos un sesgo clásico de variables omitidas.
  • Tenemos covariables de alta dimensión $\mathbf{Z}$ que no son independientes de $y$ o $x$ y/o $u$
  • Se le pide que entrene un conjunto de modelos predictivos (redes neuronales, árboles potenciados, etc.) denominados $g_i([x, \mathbf{Z}]) + \epsilon$ donde $i$ indexa diferentes modelos y, a continuación, selecciona entre ellos el modelo $i$ que minimice alguna métrica de habilidad predictiva. RMSE, por ejemplo.
  • Basándose en el modelo elegido, se le pide que informe sobre $$ \frac{\partial \hat{y}}{\partial x} = \frac{\partial \hat{g}_i([x, \mathbf{Z}])}{\partial x} $$
  • Sabes que $$ E\left[\frac{\partial \hat{y}}{\partial x}\right] \neq \frac{\partial y}{\partial x} $$ en la población, ya que el término de error incluye la variable omitida, por lo que $$ \frac{\partial \epsilon}{\partial x} \neq 0 \text{ in the population, despite the fact that } \frac{\partial \hat\epsilon}{\partial x} = 0 $$ en cualquier modelo razonable $g$ .

Además del sesgo por variables omitidas, también puede haber sesgo por regularización.

  • Supongamos además que se dispone de un modelo causal, por ejemplo una regresión de variables instrumentales, que utiliza un instrumento adecuado. $w$ para $x$ . Es uno de los modelos de su conjunto de modelos, pero su capacidad predictiva en términos de RMSE validado cruzado es peor que la de los demás.

El mejor modelo es el que produce la estimación causal consistente, ¿verdad? Pero..:

¿Cómo se lo explicaría a alguien en términos sencillos?

La persona que pide el análisis no entiende la inferencia causal y necesita que la eduquen. Sin embargo, no entienden de matemáticas y tienen poca capacidad de atención. ¿Cómo se puede transmitir eficazmente la idea básica de que los métodos causales son necesarios y los métodos predictivos son inadecuados? Nada de matemáticas, muchas historias, frases concisas.

17voto

Graham Wright Puntos 121

En primer lugar, no creo que esto deba tratarse como una dicotomía estricta: "los modelos predictivos nunca pueden establecer una inferencia causal". Hay varias situaciones en las que un modelo predictivo nos da una confianza "bastante buena" de que existe una determinada relación causal. Así que lo que yo diría es que los modelos predictivos -por muy sofisticados que sean- suelen ser insuficientes para establecer la causalidad con un alto grado de confianza. Ahora bien, ¿cómo explicar esto a la gente que no sabe nada de estadística/matemáticas?

He aquí un enfoque:

Habrá oído decir que "correlación no es causalidad". Lo que eso significa es que el hecho de que dos variables (llámense A y B) estén correlacionadas no significa que una cause la otra. Esto puede ocurrir cuando la correlación se debe a una tercera variable "de confusión" que está correlacionada tanto con A como con B. Por ejemplo: el hecho de que tener un título universitario esté correlacionado con unos ingresos elevados en la edad adulta no significa que obtener un título CAUSARA que esos ingresos subieran; podría ser que "tener padres ricos" permitiera a la gente obtener un título y luego, por separado, les ayudara a ganar más (incluso si ir a la universidad en realidad no hace nada).

Los modelos predictivos intentan tener en cuenta este problema "controlando" estadísticamente las variables de confusión. Así, en el caso anterior, podríamos utilizar modelos estadísticos para analizar la relación entre un título y los ingresos después de tener en cuenta el hecho de que las personas con padres ricos tienen más probabilidades de tener un título.

Por desgracia, en la práctica nunca es posible controlar TODAS las variables de confusión. Esto se debe en parte a que variables importantes (como la "motivación personal" del alumno) pueden no existir o ser imposibles de medir. Incluso controlar que "los padres sean ricos" es complicado: ¿qué cifra puede reflejar perfectamente la situación económica de una familia? ¿Y cómo podemos estar seguros de que los datos que tenemos son exactos? ¿Alguno de nosotros sabe PRECISAMENTE lo "ricos" que eran nuestros padres cuando éramos pequeños?

Otro problema con los modelos predictivos es que incluso si PODRÍAMOS controlar todo, no pueden distinguir entre A que causa B o B que causa A. Así que si intentáramos analizar el efecto de la depresión sobre el consumo de opiáceos, no importa qué variables de control incluyamos, no podemos estar seguros de que el efecto que observamos no se deba simplemente a que el consumo de opiáceos CAUSÓ la depresión. Tenga en cuenta que esto probablemente NO es un problema para nuestro ejemplo anterior porque es imposible que sus ingresos como adulto CAUSEN que haya ido a la universidad antes en su vida. Esta es una de las formas en las que nuestro teórico La comprensión de cómo funcionan estas variables nos ayuda a entender las amenazas para la inferencia causal.

La única forma de garantizar completamente que una relación entre A y B es causal es controlar experimentalmente cómo se "asigna" a la gente a diferentes valores de A (por ejemplo, obtener o no un título universitario). Si la asignación a A es completamente aleatoria, entonces podemos estar seguros de que NADA más influyó en A, lo que significa que no hay que preocuparse por NINGUNA variable de confusión (ni siquiera B) al analizar la relación entre A y B. Sin embargo, por razones que son obvias cuando estamos considerando títulos universitarios, la asignación aleatoria es a menudo inviable o directamente poco ética. Así que tenemos que utilizar otros enfoques de diseño de investigación para aproximarnos al poder causal de la asignación aleatoria. Desde un punto de vista crítico, estos otros enfoques (variables instrumentales, regresión discontinua, experimentos naturales) se basan en las características del propio mundo y en el proceso de recopilación de datos, más que en métodos estadísticos/matemáticos, para abordar los problemas de las variables de confusión.

16voto

Neal Puntos 316

Creo que esta explicación se aborda mejor de forma secuencial. Empieza con una historia sencilla:

Cuando mi perro Winston mueve la cola, eso indica que está contento. Por ejemplo, nunca la mueve en el veterinario, la mueve un poco cuando le cojo la correa y la mueve mucho cuando también cojo una pelota de tenis. Pero si muevo la cola de Winston por él, suele tener el efecto contrario.

En otras palabras, una "cola que se mueve" es un buen indicador del estado de ánimo de mi perro, pero no puedo utilizar este conocimiento para hacerle feliz (salvo como una especie de variable sustitutiva en los experimentos). Aquí la causalidad es bastante directa, por lo que el contraste entre predicción y causa es muy marcado.

La siguiente parábola es más realista y cercana:

Si te fijas en el rendimiento de los vendedores de mi empresa, los que con coches caros son los más productivos. Aunque es posible que Aunque es posible que a los clientes les impresionen los coches de lujo y eso les facilite la venta, nuestras ventas se realizan por teléfono, así que es poco probable que dar a nuestros vendedores coches bonitos aumente los ingresos (a menos que haya una promesa de dejar que el cliente dé una vuelta en el Porsche después de cerrar el trato).

Aquí la causalidad va en sentido contrario, aunque hay una ligera posibilidad de que la correlación entre ventas y coches sea causal.

Ahora otro ejemplo:

Es evidente que las personas que tienen nuestra aplicación instalada en su teléfono compran más que las que sólo compran en persona y/o a través de la página web. La aplicación envía notificaciones y facilita mucho la compra con un solo clic. Pero la gente no instala la aplicación porque sí. Lo hacen porque esperan comprar más, lo que la aplicación hace más conveniente, por lo que comparar a los clientes con y sin la aplicación es como comparar manzanas y orangutanes. Son personas muy diferentes.

Aquí hay causalidad en ambas direcciones, pero podría decirse que la alta intención $ \rightarrow$ el mecanismo de gastos domina la instalación de aplicaciones $\rightarrow$ gastos. Cuando una explicación causal funciona en ambas direcciones, normalmente se puede zanjar el debate con un experimento para ver cuál es la más importante.

El mundo real es mucho más complicado que estas historias bastante sencillas, y nuestra intuición a menudo puede llevarnos por mal camino a un gran coste. He aquí otros dos buenos ejemplos de la industria de confundir correlación con causalidad:

  1. Ascarza, Eva. Retención inútil: Dirigirse a clientes de alto riesgo puede ser ineficaz. Journal of Marketing Research (JMR) 55, nº 1 (febrero de 2018): 80-98.
  2. Blake, T., Nosko, C. y Tadelis, S. (2015), Consumer Heterogeneity and Paid Search Effectiveness: A Large-Scale Field Experiment. Econometrica, 83: 155-174. https://doi.org/10.3982/ECTA12423

10voto

Ryan Puntos 11

Creo que ni siquiera es necesario plantear un conjunto de ajuste de covariables $\textbf{Z}$ ni la indexación de modelos de caja negra para transmitir en términos sencillos el punto principal. Supongamos lo siguiente:

  • $y$ es el número de personas ahogadas en un mes determinado en una ciudad determinada
  • $x$ es el número de helados vendidos en un mes determinado en una ciudad determinada
  • $u$ es la temperatura en un mes determinado en una ciudad determinada, el factor de confusión no observado

$x$ será altamente predictivo de $y$ y muy probablemente un modelo que sólo utilice $x$ como predictor superará a los modelos que utilicen mediciones más ruidosas de las causas reales o sus variables instrumentales.

Claramente, el mejor modelo predictivo no es necesariamente el que da la estimación causal más consistente .

5voto

Zolani13 Puntos 128

Correlación no es igual a causalidad. Los modelos predictivos que utilizan técnicas avanzadas como el aprendizaje automático pueden ser bastante buenos a la hora de encontrar asociaciones entre variables predictivas y un resultado, pero esto no es lo mismo que determinar las relaciones causales entre esas variables.

Por ejemplo, como investigador puede encontrar una fuerte correlación entre la falta de vivienda ( $Y$ ) y el consumo de drogas ilegales ( $X$ ) en una ciudad, e incluso podría afirmar con un alto grado de precisión que se puede predecir que una persona es un sin techo si se sabe que consume drogas. ¿Puedes informar con seguridad al gobierno de la ciudad de que el consumo de drogas ilegales provoca la falta de vivienda? $X \rightarrow Y$ ¿Por tanto, reducir el consumo de drogas reducirá el número de personas sin hogar?

No, no sin deducir o recopilar más información sobre la relación causal entre $X$ y $Y$ . Tal vez sea al revés, la falta de vivienda provoca un mayor riesgo de consumo de drogas ilegales: $X \leftarrow Y$ ? O tal vez $X$ y $Y$ no están tan estrechamente relacionadas, ni siquiera son completamente independientes, y de hecho hay una tercera variable como la enfermedad mental ( $Z$ ) que provoca tanto la falta de vivienda como el consumo de drogas ilegales: $X \leftarrow Z \rightarrow Y$ ? En ambos casos, la estructura de su modelo de inferencia causal tendrá que modificarse con respecto a la de un modelo predictivo típico. También hay muchas otras posibilidades (como las variables mediadoras y colisionadoras) que deben tenerse en cuenta o descartarse para obtener una imagen completa de las relaciones causa-efecto.

2voto

svidgen Puntos 121

¡Oo Oo! Yo soy un lego en matemáticas Veamos si puedo hacerlo:


TLDR: Utilizo predicciones (o "modelos predictivos") para prepararme ante acontecimientos que escapan a mi control sin tener que saber qué los causa realmente.


Podría plantear que un modelo predictivo laico es "si el parte meteorológico dice que lloverá este fin de semana". Puede que no me importe qué hará que llueva o no llueva este fin de semana en concreto, no puedo cambiarlo, y sólo me importa si meter en la maleta mi equipo de pesca.

Contrasta con algo que quiero controlar: ¡¡¡El tiempo en mi casa!!!

  1. Si mantengo mi tejado en buen estado. probablemente no lloverá.
  2. Si pongo el termostato a 74 grados, se probablemente permanecer entre 72 y 76 grados.
  3. Si mantengo las ventanas cerradas, probablemente no hará viento.

Etc.

Puedo depender de cadenas causales conocidas para controlar algunas cosas. Pero utilizo modelos predictivos para prepararme ante cosas que escapan a mi control.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X