19 votos

¿Por qué se considera perjudicial controlar demasiadas variables?

Estoy tratando de entender el punto del segundo panel en lo siguiente cómic xkcd :

https://t.co/EfTKCyvCFS

En concreto, ¿cómo se puede inducir a error controlando demasiadas variables de confusión en los modelos?

Se agradecerá cualquier indicación sobre cómo se denomina esta crítica en la literatura, para que pueda investigar más a fondo.

26voto

ColorStatistics Puntos 110

No existe un "punto óptimo" en cuanto al número de variables que deben controlarse para obtener una estimación no sesgada del efecto causal. Dado que hablamos de confusión, debemos tener en mente la estimación del efecto causal de una variable concreta. Se utiliza una herramienta gráfica llamada DAG para trazar las relaciones causales y luego se condiciona a un conjunto de variables que nos darán el efecto causal. El condicionamiento de variables suele bloquear el flujo de asociación, pero el condicionamiento de un colisionador (efecto común) inducirá la asociación entre variables que no están relacionadas causalmente. Cuantas más variables se condicionen, más probabilidades habrá de condicionar un colisionador y, por tanto, de inducir una asociación sin causalidad; dicho esto, cuantas más variables se condicionen, también se bloquearán más vías secundarias, incluidas las de los colisionadores. El razonamiento aquí no debería girar en torno a "¿cuántas variables?" sino en torno a "¿sobre qué variables?" condicionar.

A continuación se muestra un ejemplo en el que no condicionar en nada es lo que se desea para estimar el efecto causal directo de A sobre B. Por otro lado, condicionar en el conjunto {D} o {C,D} sesgará el efecto causal directo de A sobre B porque condiciona en el colisionador D y abre camino(s) de puerta trasera.

enter image description here

Este puesto aquí puede servir como una buena introducción al razonamiento causal con DAGs.

12voto

timm Puntos 133

Yo señalaría tres cosas:

(1) En general (relacionados con la estimación de los efectos causales)

Por lo general, lo que se busca es explicar los fenómenos del mundo con modelos parsimoniosos que incluyan variables deducidas de alguna teoría. Puedes añadir cualquier variable que se te ocurra a un modelo de regresión y acabar con un ajuste casi perfecto, pero no habrás aprendido nada sobre (o incluso habrás distorsionado fundamentalmente) la relación (es decir, los efectos causales/del tratamiento) que realmente te interesa (véanse también los DAG que @ColorStatistics señaló). (Bibliografía, por ejemplo: "Causal Inference in Statistics" de Judea Pearl).

(2) En concreto (más relacionado con el modelo sobreespecificado plazo)

Se puede percibir la adición de variables irrelevantes a un modelo de regresión como la estimación de coeficientes sobre variables irrelevantes que son realmente cero. Entonces, si hace esto, los estimadores de nuestros coeficientes de regresión siguen siendo insesgados, pero también ineficientes, ya que no consideramos restricciones (verdaderas) de cero en los coeficientes de las variables irrelevantes. Por lo tanto, la inferencia sigue siendo válida, pero los intervalos de confianza se amplían. (Bibliografía: básicamente cualquier libro de texto de econometría, por ejemplo Wooldrige).

(3) Además (relacionado con la predicción)

Si sólo le interesa el rendimiento predictivo de un modelo basado en sus datos de entrenamiento, añadir variables "irrelevantes" a su modelo es menos perjudicial ( irrelevante en el sentido de no ser causal y no en el sentido de tener verdaderas restricciones de cero en los coeficientes). Como la sobrepeficación de su modelo sólo se vuelve problemático si quiere hacer inferencia (intervalos de confianza más amplios). (Eche un vistazo a la bibliografía sobre aprendizaje automático causal).

5voto

Ouuiea Puntos 69

Bueno, está relacionado con el concepto de p-hacking. Dado un número suficiente de variables de confusión plausibles para ser añadidas en el estudio, es posible encontrar una combinación de ellas que produzca resultados significativos (basta con añadir o eliminar variables hasta obtener resultados significativos, y comunicarlos).

Hay un muy buen post en FiveThirtyEight sobre esto para que puedas experimentar la idea, en la que incluso puedes obtener resultados contradictorios en función de las variables que desees "corregir".

1voto

El término que busca es sobreajuste . Wikipedia tiene una buena explicación.

1voto

Theuns Puntos 11

Hay algunas explicaciones matemáticas útiles, pero pensé que tal vez esto podría utilizar un ejemplo intuitivo.

Supongamos que estás investigando (quizá para una compañía de seguros) si el color del pelo influye en el riesgo de accidente. Analizamos los datos y, a primera vista, vemos que las morenas tienen un 10% más de probabilidades de sufrir un accidente que las rubias. Pero en los mismos datos ves que las morenas también tienen más probabilidades de que las pillen por exceso de velocidad. Si haces los controles para eliminar el efecto del exceso de velocidad, verás que el efecto del pelo en el riesgo de colisión no es significativo.

Eso sería probablemente un ejemplo de algo inapropiado que controlar. Es probable que el hecho de que nuestras morenas aceleren más sea el mecanismo por el que son más propensas a chocar. Como tal, si insistes en poner a cero ese mecanismo, te estás forzando a no ver ningún efecto aunque obviamente esté ahí. Intuitivamente, "En realidad, las morenas son conductoras muy seguras teniendo en cuenta lo mucho que aceleran" es una defensa muy poco razonable.

Por el contrario, supongamos que volvemos a examinar el conjunto de datos y descubrimos que las personas calvas tienen un 50% más de probabilidades de sufrir un accidente que las pelirrojas. Pero también ocurre que los calvos del conjunto de datos eran normalmente hombres mayores, y las mujeres jóvenes estaban infrarrepresentadas. Una vez más, se aplican controles estadísticos a la situación y el efecto desaparece. Probablemente sea bueno controlar esto, entre otras cosas porque tu compañía de seguros ya pregunta por la edad y el sexo, así que no querrás duplicar los efectos. De nuevo intuitivamente, decir "Ya sabíamos que se sabe que la edad y el sexo tienen un impacto en la seguridad vial y en la prevalencia de la calvicie. Estos datos muestran que las mujeres jóvenes calvas son tan seguras como las mujeres jóvenes peludas y que los hombres mayores calvos son tan seguros como los hombres mayores peludos" parece una aclaración muy razonable.

(Este ejemplo es totalmente inventado, y no es una alegación de que ningún tipo de pelo en particular en el mundo real sean conductores peligrosos).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X