103 votos

El Libro del Porqué de Judea Pearl: ¿Por qué se dedica a criticar las estadísticas?

Estoy leyendo El Libro del Porqué por Judea Pearl, y se me está metiendo en la piel 1 . Concretamente, me parece que está atacando incondicionalmente a la estadística "clásica" al poner un argumento del hombre de paja que la estadística nunca es capaz de investigar las relaciones causales, que nunca está interesada en las relaciones causales, y que la estadística "se convirtió en una empresa de reducción de datos ciega a los modelos". La estadística se convierte en una fea palabra con "s" en su libro.

Por ejemplo:

Los estadísticos han estado inmensamente confundidos sobre qué variables deben y no deben ser controladas, por lo que la práctica por defecto ha sido controlar todo lo que se puede medir. [...] Es un procedimiento cómodo y sencillo de seguir, pero es un derroche y está plagado de errores. Un logro clave de la Revolución Causal ha sido poner fin a esta confusión.

Al mismo tiempo, los estadísticos infravaloran enormemente el control en el sentido de que se resisten a hablar de causalidad en absoluto [...]

Sin embargo, los modelos causales han estado en la estadística como, desde siempre. Es decir, un modelo de regresión puede se utilice esencialmente un modelo causal, ya que estamos esencialmente suponiendo que que una variable es la causa y otra el efecto (de ahí que la correlación sea un enfoque diferente al de los modelos de regresión) y comprobar si esta relación causal explica los patrones observados.

Otra cita:

No es de extrañar que los estadísticos en particular encontraran este rompecabezas [el problema de Monty Hall] difícil de comprender. Están acostumbrados, como dijo R.A. Fisher (1922), a "la reducción de los datos" y a ignorar el proceso de generación de los mismos.

Esto me recuerda a la respuesta Andrew Gelman escribió a la famosa viñeta de xkcd sobre los bayesianos y los frecuentistas: "Aun así, creo que la viñeta en su conjunto es injusta al comparar a un bayesiano sensato con un estadístico frecuentista que sigue ciegamente los consejos de los libros de texto superficiales".

La cantidad de tergiversación de la palabra s que, según percibo, existe en el libro de Judea Pearls me hizo preguntarme si la inferencia causal (que hasta ahora percibía como una forma útil e interesante de organizar y probar una hipótesis científica 2 ) es cuestionable.

Preguntas: ¿cree que Judea Pearl está tergiversando las estadísticas y, en caso afirmativo, por qué? ¿Sólo para hacer que la inferencia causal parezca mayor de lo que es? ¿Cree que la inferencia causal es una revolución con una gran R que realmente cambia todo nuestro pensamiento?

Editar:

Las preguntas anteriores son mi tema principal, pero ya que son, ciertamente, de opinión, por favor, responda a estas preguntas concretas (1) ¿cuál es el significado de la "revolución de la causalidad"? (2) ¿en qué se diferencia de la estadística "ortodoxa"?

1. También porque es <em>tal </em>un tipo modesto.<br>2. Me refiero al sentido científico, no al estadístico.

EDITAR : Andrew Gelman escribió esta entrada del blog sobre el libro de Judea Pearls y creo que ha explicado mucho mejor que yo mis problemas con este libro. Aquí hay dos citas:

En la página 66 del libro, Pearl y Mackenzie escriben que la estadística "se convirtió en una empresa de reducción de datos ciega a los modelos". ¡Oye! ¿De qué demonios estás hablando? Soy estadístico, llevo 30 años haciendo estadística, trabajando en áreas que van desde la política a la toxicología. ¿"Reducción de datos ciega a los modelos"? Eso es simplemente una mierda. Usamos modelos todo el tiempo.

Y otra más:

Mira. Conozco el dilema del pluralista. Por un lado, Pearl cree que sus métodos son mejores que todo lo anterior. Bien. Para él, y para muchos otros, son las mejores herramientas que existen para estudiar la inferencia causal. Al mismo tiempo, como pluralista, o como estudiante de historia científica, nos damos cuenta de que hay muchas maneras de hacer un pastel. Es un reto mostrar respeto a los enfoques que no te funcionan realmente, y en algún momento la única manera de hacerlo es dar un paso atrás y darse cuenta de que la gente real utiliza estos métodos para resolver problemas reales. Por ejemplo, creo que tomar decisiones utilizando valores p es una idea terrible y lógicamente incoherente que ha llevado a muchos desastres científicos; al mismo tiempo, muchos científicos se las arreglan para utilizar los valores p como herramientas de aprendizaje. Lo reconozco. Del mismo modo, recomendaría a Pearl que reconociera que el aparato de la estadística, el modelado de regresión jerárquica, las interacciones, la postestratificación, el aprendizaje automático, etc., resuelven problemas reales en la inferencia causal. Nuestros métodos, al igual que los de Pearl, también pueden estropearse -¡GIGO!- y tal vez Pearl tenga razón en que todos estaríamos mejor si cambiáramos a su enfoque. Pero no creo que ayude cuando hace afirmaciones inexactas sobre lo que hacemos.

47 votos

La regresión lineal no es un modelo causal. La regresión lineal simple es lo mismo como correlación entre pares, el la única diferencia es la estandarización . Así que si dices que la regresión es causal, entonces lo mismo debería ser cierto también para la correlación. ¿La correlación es causal? Se puede utilizar la regresión para predecir lo que sea, relaciones sin sentido entre cualquier variable arbitraria (con muchos resultados "significativos" por azar).

11 votos

Los desacuerdos sobre qué enfoque del razonamiento sobre la causalidad en la estadística tiene más mérito entre Pearl, Rubin, Heckman y otros parecen haberse enconado, y creo que el tono de Pearl es cada vez más duro. No dejes que eso te distraiga de la genuina visión que tiene que ofrecer. Lean su anterior libro Causality, se les meterá menos en la piel.

7 votos

@CloseToC Yo añadiría que Pearl, Rubin y Heckman están en cierto modo trabajando en el mismo marco (es decir, marcos lógicamente equivalentes, ver aquí stats.stackexchange.com/questions/249767/ ), por lo que sus disputas están en un nivel diferente al de argumentar cosas como "la regresión lineal es un modelo causal".

83voto

Ran Kerry Puntos 1

Tu misma pregunta refleja lo que dice Pearl.

una regresión lineal simple es esencialmente un modelo causal

No, una regresión lineal es un modelo estadístico, no un modelo causal. Supongamos que $Y, X, Z$ son variables aleatorias con una distribución normal multivariante. Entonces puede estimar correctamente las expectativas lineales $E[Y\mid X]$ , $E[X\mid Y]$ , $E[Y\mid X,Z]$ , $E[Z\mid Y, X]$ etc. utilizando la regresión lineal, pero no hay nada aquí que diga si alguna de esas cantidades es causal.

Una ecuación estructural lineal, en cambio, es un modelo causal. Pero el primer paso es comprender la diferencia entre los supuestos estadísticos (restricciones sobre la distribución de probabilidad conjunta observada) y los supuestos causales (restricciones sobre el modelo causal).

¿crees que Judea Pearl tergiversa las estadísticas, y si es así ¿por qué?

No, no lo creo, porque vemos estos conceptos erróneos a diario. Por supuesto, Pearl está haciendo algunas generalizaciones, ya que algunos estadísticos trabajan con la inferencia causal (Don Rubin fue un pionero en la promoción de los resultados potenciales... además, ¡yo soy estadístico!). Pero tiene razón al decir que el grueso de la enseñanza tradicional de la estadística rehúye la causalidad, incluso a nivel formal definir lo que es un efecto causal.

Para que quede claro, si pedimos a un estadístico/econometrista con una formación normal que defina matemáticamente cuál es el valor esperado de $Y$ si intervenimos en $X$ probablemente escribiría $E[Y|X]$ (vea un ejemplo aquí) ¡! Pero eso es una cantidad observacional, no es así como se definir ¡un efecto causal! En otros términos, en la actualidad, un estudiante con sólo un curso de estadística tradicional carece incluso de la capacidad de definir correctamente esta cantidad matemáticamente ( $E[Y_{x}]$ o $E[Y|do(x)]$ ) si no está familiarizado con la teoría estructural/contrafactual de la causalidad ¡!

La cita que traes del libro también es un gran ejemplo. En los libros de estadística tradicionales no se encuentra una definición correcta de lo que es un factor de confusión, ni orientación sobre cuándo se debe (o no) ajustar por una covariable en los estudios observacionales. En general, se ven "criterios correlacionales", como "si la covariable está asociada con el tratamiento y con el resultado, hay que ajustarla". Uno de los ejemplos más notables de esta confusión aparece en Paradoja de Simpson: ante dos estimaciones de signos opuestos, ¿cuál debe utilizarse, la ajustada o la no ajustada? La respuesta, por supuesto, depende del modelo causal.

¿Y qué quiere decir Pearl cuando dice que esta cuestión ha llegado a su fin? En el caso del ajuste simple por regresión, se refiere a la criterio de la puerta trasera (ver más aquí) . Y para la identificación en general -más allá del simple ajuste- quiere decir que ahora tenemos algoritmos completos para la identificación de efectos causales para cualquier DAG semimarkoviano dado.

Merece la pena hacer otra observación al respecto. Incluso en los estudios experimentales - donde la estadística tradicional ha hecho seguramente un trabajo importante con el diseño de experimentos. al final del día todavía se necesita un modelo causal . Los experimentos pueden sufrir de falta de cumplimiento, de pérdida de seguimiento, de sesgo de selección... además, la mayoría de las veces no se quiere limitar los resultados de los experimentos a la población específica que se analizó, quiere generalizar sus resultados experimentales a una población más amplia/diferente . Aquí, de nuevo, cabe preguntarse: ¿qué hay que ajustar? ¿Son los datos y los conocimientos sustanciales que se tienen suficientes para permitir esa extrapolación? Todo esto son conceptos causales, por lo que se necesita un lenguaje para expresar formalmente las hipótesis causales y comprobar si son suficientes para poder hacer lo que se quiere.

En resumen, estos conceptos erróneos están muy extendidos en la estadística y la econometría, hay varios ejemplos aquí en Cross Validated, como:

Y muchos más.

¿Crees que la inferencia causal es una revolución con una gran R que realmente cambia todo nuestro pensamiento?

Teniendo en cuenta el estado actual de muchas ciencias, lo mucho que hemos avanzado y lo rápido que están cambiando las cosas, y lo mucho que aún podemos hacer, yo diría que esto es realmente una revolución.

PS : Pearl sugirió dos de sus posts en el blog de causalidad de la UCLA que serán de interés para esta discusión, puedes encontrar los posts aquí y aquí .

PS 2 : Como ha mencionado January en su nueva edición, Andrew Gelman tiene un nuevo puesto en su blog. Además del debate en el blog de Gelman, Pearl también ha respondido en twitter (abajo):

La reseña de Gelman sobre #Bookofwhy debería ser de interés porque representa una actitud que paraliza amplios círculos de investigadores estadísticos. Mi reacción inicial es ahora publicada en https://t.co/mRyDcgQtEc Relacionado puestos: https://t.co/xUwR6eCGrZ y https://t.co/qwqV3oyGUy

- Judea Pearl (@yudapearl) enero 9, 2019

6 votos

Gracias. Pero - bueno, escribiendo de forma simplista, puedo calcular E[X|Y] así como E[Y|X], pero puedo escribir XY así como XY en un DAG. De una forma u otra, yo debe empezar con una hipótesis científica o un modelo. Mi hipótesis, mi modelo - mi elección. El mismo hecho de que yo puede hacer algo no significa que deba hacerlo, ¿verdad?

6 votos

@January no significa que debas hacerlo, la cuestión aquí es sólo ser capaz de articular con precisión lo que quieres estimar (la estimación causal), articular con precisión tus supuestos causales (dejando clara la distinción entre supuestos causales y estadísticos), comprobar las implicaciones lógicas de esos supuestos causales y ser capaz de entender si tus supuestos causales + los datos son suficientes para responder a tu consulta.

2 votos

Estoy completamente de acuerdo, pero no veo aquí una diferencia fundamental y filosófica entre usar un DAG o usar un modelo lineal. Puedes usar ambos mal, o puedes usar ambos para probar una hipótesis causal científica razonable (si eso no fuera posible para los modelos lineales, no tendríamos hoy ningún medicamento o vacuna moderna).

76voto

Ranakh Puntos 11

Estoy totalmente de acuerdo en que el tono de Pearl es arrogante, y su caracterización de los "estadísticos" es simplista y monolítica. Además, su redacción no me parece especialmente clara.

Sin embargo, creo que tiene razón.

El razonamiento causal no formaba parte de mi formación formal (MSc): lo más cerca que estuve del tema fue un curso optativo de diseño experimental, es decir, cualquier afirmación de causalidad requería que controlara físicamente el entorno. El libro de Pearl Causalidad fue mi primera exposición a una refutación de esta idea. Obviamente no puedo hablar por todos los estadísticos y planes de estudio, pero desde mi propia perspectiva suscribo la observación de Pearl de que el razonamiento causal no es una prioridad en la estadística.

Es cierto que los estadísticos a veces controlan más variables de las estrictamente necesarias, pero esto rara vez conduce a un error (al menos en mi experiencia).

Esta es también una creencia que mantuve después de graduarme con una maestría en estadística en 2010.

Sin embargo, es profundamente incorrecto. Cuando se controla un efecto común (llamado "colisionador" en el libro), se puede introducir un sesgo de selección. Esta constatación me sorprendió bastante, y me convenció realmente de la utilidad de representar mis hipótesis causales en forma de gráficos.

EDIT: Me pidieron que explicara el sesgo de selección. Este tema es bastante sutil, recomiendo encarecidamente leer el MOOC de edX sobre Diagramas causales , una muy buena introducción a los gráficos que tiene un capítulo dedicado al sesgo de selección.

Parafraseando el ejemplo de un juguete este documento citado en el libro: Consideremos las variables A=atractivo, B=belleza, C=competencia. Supongamos que B y C no están relacionadas causalmente en la población general (es decir, la belleza no causa la competencia, la competencia no causa la belleza, y la belleza y la competencia no comparten una causa común). Supongamos también que cualquiera de B o C es suficiente para ser atractivo, es decir, que A es un colisionador. Condicionar a A crea una asociación espuria entre B y C.

Un ejemplo más grave es la "paradoja del peso al nacer", según la cual el hecho de que la madre fume (S) durante el embarazo parece disminuir la mortalidad (M) del bebé, si éste tiene un peso inferior al normal (U). La explicación que se propone es que los defectos de nacimiento (D) también causan un bajo peso al nacer, y también contribuyen a la mortalidad. El diagrama causal correspondiente es { S -> U, D -> U, U -> M, S -> M, D -> M } en el que U es un colisionador; condicionarlo introduce la asociación espuria. La intuición detrás de esto es que si la madre es fumadora, es menos probable que el bajo peso al nacer se deba a un defecto.

8 votos

+1. ¿Puede explicar un poco más cómo introduce el sesgo de selección? Quizás un pequeño ejemplo concreto lo aclare para la mayoría de los lectores.

2 votos

Gracias por la edición. Son ejemplos muy claros.

0 votos

Entonces, la intuición del bajo peso al nacer de los bebés de los fumadores, es correcta, ¿no?

31voto

alexs77 Puntos 36

Soy fan de la escritura de Judea, y he leído Causality (amor) y Book of Why (me gusta).

No me parece que Judea esté atacando las estadísticas. Es difícil escuchar las críticas. Pero ¿qué podemos decir de cualquier persona o campo que no acepte las críticas? Tienden de la grandeza a la complacencia. Hay que preguntarse: ¿es la crítica correcta, necesaria, útil y propone alternativas? La respuesta a todo ello es un "Sí" rotundo.

¿Correcto? He revisado y colaborado en unas cuantas docenas de artículos, en su mayoría análisis de datos observacionales, y rara vez me parece que haya una discusión suficiente sobre la causalidad. El enfoque de "ajuste" implica la selección de variables porque fueron elegidas a dedo por el DD como "útiles" "relevantes" "importantes" u otras tonterías. $^1$

¿Necesita? Los medios de comunicación están inundados de declaraciones aparentemente contradictorias sobre los efectos en la salud de las principales exposiciones. La incoherencia en el análisis de los datos ha estancado las pruebas, lo que nos deja sin una política útil, procedimientos sanitarios y recomendaciones para vivir mejor.

¿Útil? El comentario de Judea es lo suficientemente pertinente y específico como para hacernos reflexionar. Es directamente relevante para cualquier análisis de datos que cualquier estadístico o experto en datos pueda encontrar.

¿Propone alternativas? Sí, Judea de hecho discute la posibilidad de métodos estadísticos avanzados, e incluso cómo se reducen a marcos estadísticos conocidos (como el Modelado de Ecuaciones Estructurales) y su conexión con los modelos de regresión). Todo se reduce a exigir una declaración explícita del conocimiento del contenido que ha guiado el enfoque de la modelización.

Judea no está sugiriendo simplemente que defenestramos todos los métodos estadísticos (por ejemplo, la regresión). Más bien está diciendo que tenemos que adoptar alguna teoría causal para justificar los modelos.

$^1$ La queja aquí es sobre el uso de un lenguaje convincente e impreciso para justificar lo que en última instancia es un enfoque equivocado de la modelización. Puede haber solapamiento, serendipia, pero Pearl tiene claro el propósito de un diagrama causal (DAG) y cómo se pueden clasificar las variables como "confusoras".

3 votos

Buena respuesta. Tenga en cuenta que al no ser estadístico, pero haber servido de interfaz entre la estadística y la biología durante muchos años, para mí cualquier crítica a los estadísticos no es realmente tan difícil de escuchar ;-) Sin embargo, ¿realmente crees que la "estadística ortodoxa" no puede manejar la causalidad en absoluto, como Pearl afirma explícitamente?

4 votos

@Enero al contrario . Creo que la deficiencia entre los estadísticos a la hora de aceptar la inferencia causal en sus análisis está directamente relacionada con su deficiencia en la comprensión de la inferencia frecuentista. Lo que falta es el razonamiento contrafactual.

4 votos

+1 "El enfoque de "ajuste" implica la selección de variables porque fueron elegidas a mano a partir de la DD por ser "útiles" "relevantes" "importantes" u otras tonterías sin incorporar realmente hipótesis formales sobre las relaciones causales específicas entre ellos ( a la el uso formal de los DAG) ." Edición añadida. :)

27voto

Aaron Puntos 36

No he leído este libro, así que sólo puedo juzgar la cita concreta que das. Sin embargo, incluso sobre esta base, estoy de acuerdo contigo en que esto parece extremadamente injusto para la profesión estadística. En realidad, creo que los estadísticos siempre han hecho un trabajo notablemente bueno al subrayar la distinción entre asociaciones estadísticas (correlación, etc.) y causalidad, y al advertir contra la confusión de ambas. De hecho, en mi experiencia, los estadísticos han sido generalmente la principal fuerza profesional luchando contra la omnipresente confusión entre causa y correlación. Es rotundamente falso (y prácticamente una calumnia) afirmar que los estadísticos son "...reacios a hablar de causalidad en absoluto". Ya veo por qué te molesta leer gilipolleces arrogantes como ésta.

Yo diría que es razonablemente común que no estadísticos que utilizan modelos estadísticos para tener una mala comprensión de la relación entre la asociación estadística y la causalidad. Algunos tienen una buena formación científica en otros campos, en cuyo caso es posible que también conozcan bien la cuestión, pero no cabe duda de que hay personas que utilizan modelos estadísticos que no comprenden bien estas cuestiones. Esto ocurre en muchos campos científicos aplicados en los que los profesionales tienen una formación básica en estadística, pero no la aprenden a un nivel profundo. En estos casos, suelen ser los estadísticos profesionales quienes alertan a otros investigadores sobre las distinciones entre estos conceptos y su correcta relación. Los estadísticos suelen ser los principales diseñadores de los ECA y otros experimentos que incluyen controles utilizados para aislar la causalidad. A menudo se les pide que expliquen protocolos como la aleatorización, los placebos y otros protocolos que se utilizan para intentar cortar las relaciones con posibles variables de confusión. Es cierto que los estadísticos a veces controlan más variables de las estrictamente necesarias, pero esto rara vez conduce a un error (al menos en mi experiencia). Creo que la mayoría de los estadísticos son conscientes de la diferencia entre variables de confusión y variables del colisionador cuando realizan análisis de regresión con vistas a hacer inferencias causales, e incluso si no siempre están construyendo modelos perfectos, la idea de que de alguna manera evitan la consideración de la causalidad es simplemente ridícula.

Creo que Judea Pearl ha hecho una contribución muy valiosa a la estadística con su trabajo sobre la causalidad, y le agradezco esta maravillosa aportación. Ha construido y examinado algunos formalismos muy útiles que ayudan a aislar las relaciones causales, y su trabajo se ha convertido en un elemento básico de una buena educación estadística. He leído su libro Causalidad cuando era estudiante de posgrado, y está en mi estantería, y en la de muchos otros estadísticos. Gran parte de este formalismo se hace eco de cosas que han sido conocidas intuitivamente por los estadísticos desde antes de que se formalizaran en un sistema algebraico, pero es muy valioso en cualquier caso, y va más allá de lo que es obvio. (De hecho, creo que en el futuro veremos una fusión de la operación "hacer" con el álgebra de la probabilidad que se producirá a nivel axiomático, y esto probablemente se convertirá finalmente en el núcleo de la teoría de la probabilidad. Me encantaría que esto se incorporara directamente a la educación estadística, de modo que se aprendiera sobre los modelos causales y la operación "hacer" cuando se aprendiera sobre las medidas de probabilidad).

Una última cosa a tener en cuenta aquí es que hay muchas aplicaciones de la estadística en las que el objetivo es predictivo Cuando el profesional no pretende inferir la causalidad. Este tipo de aplicaciones son muy comunes en estadística, y en estos casos, es importante no limitarse a las relaciones causales. Esto es cierto en la mayoría de las aplicaciones de la estadística en finanzas, RRHH, modelización de la mano de obra y muchos otros campos. No hay que subestimar la cantidad de contextos en los que no se puede o no se debe tratar de controlar las variables.


Actualización: Observo que mi respuesta no coincide con la proporcionada por Carlos . Quizá no estemos de acuerdo en lo que constituye "un estadístico/econometrista con una formación normal". Cualquier persona a la que yo llamaría "estadístico" suele tener, como mínimo, una formación de posgrado y, por lo general, una formación/experiencia profesional considerable. (Por ejemplo, en Australia, el requisito para convertirse en "Estadístico Acreditado" con nuestro organismo profesional nacional requiere un mínimo de cuatro años de experiencia después de una licenciatura, o seis años de experiencia después de una licenciatura normal). En cualquier caso, un estudiante de estadística no es un estadístico .

Observo que, como prueba de la supuesta falta de comprensión de la causalidad por parte de los estadísticos, la respuesta de Carlos señala varias preguntas en CV.SE que preguntan sobre la causalidad en la regresión. En cada uno de estos casos, la pregunta es formulada por alguien que obviamente es un novato (no un estadístico) y las respuestas dadas por Carlos y otros (que reflejan la explicación correcta) son respuestas muy votadas. De hecho, en varios de los casos Carlos ha dado una explicación detallada de la causalidad y sus respuestas son las más votadas. Esto demuestra sin duda que los estadísticos entienden la causalidad .

Algunos otros carteles han señalado que el análisis de la causalidad no suele incluirse en el plan de estudios de estadística. Eso es cierto, y es una gran pena, pero la mayoría de los estadísticos profesionales no son recién licenciados, y han aprendido mucho más de lo que se incluye en un programa de máster estándar. De nuevo, a este respecto, parece que tengo una opinión más elevada del nivel medio de conocimientos de los estadísticos que otros carteles.

12 votos

Soy un no estadístico cuya formación formal en estadística fue impartida por no estadísticos en el mismo campo, y enseño e investigo con no estadísticos que aplican la estadística. Puedo asegurar que el principio de que (por ejemplo) la correlación no es causalidad es, y era, un mantra recurrente en mi campo. De hecho, no me encuentro con personas que no puedan ver que una correlación entre las precipitaciones y el rendimiento del trigo no es todo lo que hay que decir sobre la relación entre ellos y los procesos subyacentes. Por lo general, según mi experiencia, los que no son estadísticos también han reflexionado sobre esto desde hace mucho tiempo.

2 votos

Sí, estoy de acuerdo. Creo que diría que es aún menos común que los estadísticos profesionales confundan correlación y causa que los no estadísticos, así que cuando esto ocurre, suele ser por parte de estos últimos. En resumen, $\mathbb{P}(\text{Confused}|\text{Non-statistician})$ puede ser baja, pero $\mathbb{P}(\text{Non-statistician}|\text{Confused})$ es alta.

9 votos

Como epidemiólogo, cada vez me molesta más este mantra. Como dice @NickCox, esto es algo que hasta los no científicos entienden. El problema que tengo es cuando todo el mundo se sube al carro de "¡correlación no significa causalidad!" cada vez que se publica un estudio observacional (un estudio de casos y controles, por ejemplo). Sí, la correlación no significa causalidad, pero los investigadores suelen ser muy conscientes de ello y hacen todo lo posible por diseñar y analizar un estudio de forma que la interpretación causal sea al menos plausible.

12voto

user146851 Puntos 16

una regresión lineal simple es esencialmente un modelo causal

He aquí un ejemplo que se me ha ocurrido en el que un modelo de regresión lineal no es causal. Digamos que a priori que se tomó un medicamento en el momento 0 ( t=0 ) y que no tiene ningún efecto sobre la tasa de ataques al corazón en t=1 . Ataques al corazón en t=1 afectan a los ataques al corazón en t=2 (es decir, el daño previo hace que el corazón sea más susceptible de sufrir daños). La supervivencia en t=3 sólo depende de si la gente tuvo o no un ataque al corazón en t=2 -- un ataque al corazón en t=1 afectaría de forma realista a la supervivencia en t=3 pero no tendremos una flecha, en aras de la simplicidad.

Esta es la leyenda:

DAG legend

Aquí está el verdadero gráfico causal: collider bias

Finjamos que no sabemos que los ataques al corazón en t=1 son independientes de la toma de la droga en t=0 por lo que construimos un modelo de regresión lineal simple para estimar el efecto del fármaco sobre el infarto en t=0 . Aquí nuestro predictor sería Medicamento t=0 y nuestra variable de resultado sería Ataque cardíaco t=1 . Los únicos datos que tenemos son las personas que sobreviven a t=3 así que haremos nuestra regresión con esos datos.

Este es el intervalo de credibilidad bayesiano del 95% para el coeficiente de Medicamento t=0 : 95% credible interval, collider bias

Gran parte de la probabilidad, como podemos ver, es mayor que 0, ¡así que parece que hay un efecto! Sin embargo, sabemos que a priori que hay 0 efecto. Las matemáticas de la causalidad desarrolladas por Judea Pearl y otros hacen que sea mucho más fácil ver que habrá un sesgo en este ejemplo (debido al condicionamiento de un descendiente de un colisionador). El trabajo de Judea implica que, en esta situación, debemos utilizar el conjunto de datos completo (es decir, no mirar a las personas que sólo sobrevivieron), lo que eliminará las trayectorias sesgadas:

no bias

Aquí está el intervalo creíble del 95% cuando se mira el conjunto de datos completo (es decir, sin condicionar a los que sobrevivieron).

95% credible interval, no bias .

Está densamente centrado en 0, lo que esencialmente no muestra ninguna asociación.

En los ejemplos de la vida real, las cosas pueden no ser tan sencillas. Puede haber muchas más variables que podrían causar un sesgo sistemático (confusión, sesgo de selección, etc.). Pearl ha matematizado lo que hay que ajustar en los análisis; los algoritmos pueden sugerir qué variable hay que ajustar, o incluso decirnos cuándo el ajuste no es suficiente para eliminar el sesgo sistemático. Con esta teoría formal establecida, no necesitamos pasar tanto tiempo discutiendo sobre qué ajustar y qué no ajustar; podemos llegar rápidamente a conclusiones sobre si nuestros resultados son sólidos o no. Podemos diseñar mejor nuestros experimentos y analizar los datos observacionales con mayor facilidad.

Aquí está un curso gratuito en línea sobre DAGs causales por Miguel Hernàn. Tiene un montón de casos reales en los que profesores / científicos / estadísticos han llegado a conclusiones opuestas sobre la cuestión en cuestión. Algunos de ellos pueden parecer paradojas. Sin embargo, se pueden resolver fácilmente a través de la herramienta de Judea Pearl d-separación y Criterio de la puerta trasera .

Como referencia, aquí está el código del proceso de generación de datos y el código de los intervalos creíbles que se muestra arriba:

import numpy as np
import pandas as pd
import statsmodels as sm
import pymc3 as pm
from sklearn.linear_model import LinearRegression

%matplotlib inline

# notice that taking the drug is independent of heart attack at time 1.
# heart_attack_time_1 doesn't "listen" to take_drug_t_0
take_drug_t_0 = np.random.binomial(n=1, p=0.7, size=10000)
heart_attack_time_1 = np.random.binomial(n=1, p=0.4, size=10000)

proba_heart_attack_time_2 = []

# heart_attack_time_1 increases the probability of heart_attack_time_2. Let's say
# it's because it weakens the heart and makes it more susceptible to further
# injuries
# 
# Yet, take_drug_t_0 decreases the probability of heart attacks happening at
# time 2
for drug_t_0, heart_attack_t_1 in zip(take_drug_t_0, heart_attack_time_1):
    if drug_t_0 == 0 and heart_attack_t_1 == 0:
        proba_heart_attack_time_2.append(0.1)
    elif drug_t_0 == 1 and heart_attack_t_1 == 0:
        proba_heart_attack_time_2.append(0.1)
    elif drug_t_0 == 0 and heart_attack_t_1 == 1:
        proba_heart_attack_time_2.append(0.5)
    elif drug_t_0 == 1 and heart_attack_t_1 == 1:
        proba_heart_attack_time_2.append(0.05)

heart_attack_time_2 = np.random.binomial(
    n=2, p=proba_heart_attack_time_2, size=10000
)

# people who've had a heart attack at time 2 are more likely to die by time 3

proba_survive_t_3 = []
for heart_attack_t_2 in heart_attack_time_2:
    if heart_attack_t_2 == 0:
        proba_survive_t_3.append(0.95)
    else:
        proba_survive_t_3.append(0.6)

survive_t_3 = np.random.binomial(
    n=1, p=proba_survive_t_3, size=10000
)

df = pd.DataFrame(
    {
        'survive_t_3': survive_t_3,
        'take_drug_t_0': take_drug_t_0,
        'heart_attack_time_1': heart_attack_time_1,
        'heart_attack_time_2': heart_attack_time_2
    }
)

# we only have access to data of the people who survived
survive_t_3_data = df[
    df['survive_t_3'] == 1
]

survive_t_3_X = survive_t_3_data[['take_drug_t_0']]

lr = LinearRegression()
lr.fit(survive_t_3_X, survive_t_3_data['heart_attack_time_1'])
lr.coef_

with pm.Model() as collider_bias_model_normal:
    alpha = pm.Normal(name='alpha', mu=0, sd=1)
    take_drug_t_0 = pm.Normal(name='take_drug_t_0', mu=0, sd=1)
    summation = alpha + take_drug_t_0 * survive_t_3_data['take_drug_t_0']
    sigma = pm.Exponential('sigma', lam=1)           

    pm.Normal(
        name='observed', 
        mu=summation,
        sd=sigma,
        observed=survive_t_3_data['heart_attack_time_1']
    )

    collider_bias_normal_trace = pm.sample(2000, tune=1000)

pm.plot_posterior(collider_bias_normal_trace['take_drug_t_0'])

with pm.Model() as no_collider_bias_model_normal:
    alpha = pm.Normal(name='alpha', mu=0, sd=1)
    take_drug_t_0 = pm.Normal(name='take_drug_t_0', mu=0, sd=1)
    summation = alpha + take_drug_t_0 * df['take_drug_t_0']
    sigma = pm.Exponential('sigma', lam=1)           

    pm.Normal(
        name='observed', 
        mu=summation,
        sd=sigma,
        observed=df['heart_attack_time_1']
    )

    no_collider_bias_normal_trace = pm.sample(2000, tune=2000)

pm.plot_posterior(no_collider_bias_normal_trace['take_drug_t_0'])

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X