17 votos

¿Variables de confusión en las predicciones del aprendizaje automático?

En la estadística clásica, la variable de confusión es un concepto crítico, ya que puede distorsionar nuestra visión sobre la relación entre las variables de entrada y las de resultado. En la estadística se buscan muchas formas de control y ajuste para eliminar, evitar o minimizar el efecto de la confusión. Por ejemplo, las variables de confusión esperadas (es decir, la edad y el sexo) suelen incluirse en el análisis; en el modelo final, el coeficiente de su variable explicativa interesada (es decir, el tratamiento) se ajusta para tener en cuenta la confusión (es decir, la edad y el sexo).

La confusión no es un tema que aparezca con frecuencia en el aprendizaje automático y el análisis predictivo. Me pregunto cómo la confusión puede (o no) desempeñar un papel importante en los algoritmos de aprendizaje automático. ¿Afecta la confusión potencialmente a la exactitud de la precisión fuera de la muestra? ¿Incluir o no incluir una variable de confusión esperada es una consideración importante a la hora de seleccionar una característica en el aprendizaje automático?

13voto

T2Small Puntos 61

Los factores de confusión desempeñan un papel importante en la estadística, ya que buscamos identificar el efecto exacto de un conjunto de variables sobre otro. Si las variables de confusión se dejan fuera de un modelo estadístico, el efecto medido para las variables que se incluyeron puede estar sesgado.

La confusión no es un problema tan grande cuando se realiza una predicción, porque no nos preocupa identificar el efecto exacto de una variable sobre otra. Simplemente buscamos averiguar cuál es el valor "más probable" de una variable dependiente dado un conjunto de predictores.

Así, por ejemplo, supongamos que queremos estimar hasta qué punto la edad de una persona afecta a su salario. Entonces podemos estimar el modelo: \begin{equation} \text{salary}_i = \beta_ 0 + \beta_1 \text{age}_i + \varepsilon_i. \end{equation} Es muy probable que $\beta_1$ en la ecuación anterior será positiva y bastante grande, porque las personas mayores suelen tener más estudios y más experiencia laboral. Por lo tanto, si queremos precisar la relación entre la edad y el salario, probablemente debamos controlar estos factores de confusión al estimar el modelo: $$ \text{salary}_i = \beta_ 0 + \beta_1^* \text{age}_i + \beta_2 \text{education}_i + \beta_3\text{experience}_i + \varepsilon_i. $$ Es muy probable que $\beta_1^* < \beta_1$ y que $\beta_1^*$ será un estimador mucho mejor del efecto puro de la edad sobre los ingresos propios. Esto, en el sentido de "cambiar la edad de alguien y mantener todo lo demás fijo". Sin embargo, como la edad está muy correlacionada con la educación y la experiencia, el primer modelo podría ser lo suficientemente bueno para predecir el salario de una persona.

0 votos

No sé mucho sobre inferencias casuales. Pero según lo que he leído aquí La educación y la experiencia pueden influir en el salario, pero no son causa de la edad, por lo que no son variables de confusión por definición. ¿He entendido mal su respuesta?

8voto

JanithaR Puntos 141

La confusión es un problema para la predicción cuando la relación de confusión cambia. Este es un problema común para los modelos de ML en producción. Por ejemplo, véase Lo que podemos aprender del épico fracaso de Google Flu Trends .

El otro problema común son los bucles de retroalimentación. Por ejemplo, Google presenta los resultados de la publicidad basándose en la predicción de la probabilidad de respuesta, pero la posición en la lista afecta a la tasa de clics. Causalidad en el aprendizaje automático .

2voto

Le Roghete Puntos 6

La única forma de controlar los factores de confusión es la aleatorización, ya que equilibrará los factores de confusión medidos y no medidos. Cualquier ajuste a nivel analítico es sólo un intento de minimizar la confusión medida (emparejamiento, restricción, métodos G...) pero no de eliminarla. Por lo tanto, si el objetivo del ejercicio es simplemente la predicción sin un intento de manipular el resultado, que es el objetivo de la predicción, no es necesario preocuparse por la confusión. Pero si se quiere tener un modelo de predicción que se utilizará para cambiar el resultado manipulando los predictores, entonces es un objetivo mucho más difícil porque, en ese caso, es necesario ajustar los factores de confusión. El ejemplo más sencillo que puedo ofrecer es: El aumento de las ventas de helados será un excelente predictor de una mayor incidencia de quemaduras solares. Sin embargo, si se quiere cambiar la incidencia de las quemaduras solares, prohibir la venta de helados no servirá de nada. Una vez que se controla el factor de confusión (el sol del verano), la relación estadística entre la venta de helados desaparece (porque es una relación estadística, no causal). Ahora cambie las variables intuitivas (venta de helados, quemaduras solares y clima cálido) por variables no intuitivas (por ejemplo, biomarcador 1 en sangre, riesgo de cáncer y el factor de confusión que ni siquiera sabemos si existe), y entenderá mejor por qué sin aleatorización nos encontramos en una situación sesgada que es incluso difícil de cuantificar en términos de magnitud, pero también de dirección.

0voto

Adam Kells Puntos 66

Las variables de confusión pueden hacer que cantidades que no están relacionadas parezcan estar correlacionadas.

Imagina que quieres comprobar si beber vino tinto es bueno para tu corazón. Va y encuesta a un grupo de personas para averiguar a) cuánto vino tinto beben y b) algún parámetro de salud cardiaca.

Cuando se hace esto y se representan los datos en un gráfico, es muy posible que se observe una correlación negativa. Entonces concluyes:

\begin{equation} \textbf{Wine}\implies \textbf{Cardiac Health} \end{equation}

¡Impresionante! Así que beber vino tinto hace que tu corazón esté sano, ¡debería beber más!

Pero espera, todo lo que aprendimos fue que "las personas que beben más vino tienden a tener corazones más sanos".

¿Y si la renta es una variable de confusión e influye tanto en el consumo de vino como en la salud?

  • Las personas ricas suelen beber más vino.
  • Los ricos suelen tener mejor asistencia sanitaria.

Para desentrañar adecuadamente estas variables y averiguar la verdadera historia necesitamos utilizar la inferencia causal (o descubrimiento causal) para determinar si el consumo de vino influye en la salud cardiaca más allá de la influencia de la riqueza personal.

Dependiendo de lo que consiga aprender mediante un enfoque causal de los factores de confusión, puede intentar restringir su algoritmo ML para que sólo utilice variables de su gráfico causal.

Si tiene un modelo lineal, también puede restringir los coeficientes de su modelo para que sean positivos/negativos y asegurarse de que su modelo es coherente con el gráfico descubierto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X