19 votos

¿Sobreajuste generalizado en la investigación sanitaria?

Estaba leyendo sobre fallos en las técnicas de selección de modelos como la eliminación basada en la significación y la selección hacia atrás mediante AIC (o similar) en el contexto de la regresión, que conducen a coeficientes inflados, intervalos de confianza estrechos y valores p inferiores a lo que deberían ser.

En el ámbito de la salud, en el que trabajo, no es raro ver técnicas de este tipo en artículos de revistas. Aunque técnicas como la división entrenamiento/prueba y la validación cruzada pueden reducir este problema, tampoco suelen utilizarse, ya que el objetivo principal es la inferencia estadística y no la predicción per se.

Esto me llevó a plantearme las siguientes preguntas:

  1. Dado que muchas investigaciones en el ámbito de la salud utilizan estas técnicas de selección de modelos sin corregirlas, ¿significa esto que es probable que muchos modelos en este ámbito estén sobreajustados y, por tanto, que los resultados de estos artículos estén inflados?

  2. Aunque el objetivo principal es la inferencia y no la predicción, parece que estos modelos de regresión pueden estar sobreajustados. Dado que estos artículos a menudo no entrenan:prueban o validan de forma cruzada, ¿es esta otra fuente de sobreajuste que podría estar muy extendida en este ámbito?

  3. Aunque el aprendizaje automático se centra sobre todo en la predicción, ¿no podría ser también una opción válida para describir relaciones y reducir al mismo tiempo el exceso de ajuste que, según mi hipótesis, se produce cuando los investigadores utilizan estos métodos estadísticos? Después de todo, si un algoritmo puede predecir con un rendimiento decente en un conjunto de datos no visto, entonces claramente "entiende" la relación entre las variables y el resultado (mientras que algunos algoritmos pueden ser de caja negra, muchos tienen herramientas de importancia de características (RF, XGBoost) y se pueden considerar técnicas xAI para dilucidar estas relaciones).

  4. Dado que las técnicas de aprendizaje automático suelen estar mejor equipadas cuando las características son muchas, ¿podría ser una solución adecuada para la selección de modelos derivar las características más importantes de los algoritmos de aprendizaje automático que obtienen mejores resultados y utilizarlas después para la predicción? Esto parece una opción mejor que la selección de modelos basada en la significación o la selección hacia atrás.

No soy experto en ninguno de los campos relacionados con esta pregunta, así que disculpe mi ignorancia.

23voto

dan90266 Puntos 609

Tiene razón en que el sobreajuste es un problema rampante en la investigación sanitaria, al igual que en todos los demás campos en los que el tamaño de las muestras no es enorme. Uno de los mayores errores cometidos en los últimos años es suponer que los algoritmos de aprendizaje automático solucionan de algún modo este problema. Aunque los algoritmos pueden ajustarse con validación cruzada para no sobreajustarse, muchos como los bosques aleatorios suelen dar lugar a sobreajustes masivos.

No es correcto utilizar un método de aprendizaje supervisado para seleccionar características que se promoverán para su uso en otro método. El segundo método ha perdido el contexto y no sabe cómo aplicar la cantidad adecuada de contracción. Además, el primer método tiene muy pocas posibilidades de encontrar las características "correctas". Por ejemplo, muchos profesionales piensan que lazo encuentra las características adecuadas cuando en realidad suele fracasar estrepitosamente en esa tarea.

Abordo muchas de estas cuestiones en profundidad en RMS y BBR .

La solución más general, segura e interpretable es el uso intensivo del aprendizaje no supervisado (componentes principales dispersos; componentes principales regulares después de agrupar las variables, etc.). Esto permite utilizar el aprendizaje supervisado tradicional o ML en las características reducidas y combinadas con mucha estabilidad y sin mucho sobreajuste.

Los datos no son capaces de informarnos sobre qué variables son importantes, así que deberíamos dejar de intentar utilizar los datos para ello. Una simple simulación en RMS lo demuestra. Con un número limitado de características candidatas, una alta relación señal:ruido y cero colinealidad, la selección de variables por pasos sigue teniendo una probabilidad muy baja de seleccionar las variables correctas. Lo mismo ocurre con métodos como lazo . Si no puede funcionar en un entorno ideal, no puede funcionar con datos reales.

17voto

Thieme Hennis Puntos 31
  1. Es habitual encontrar análisis de datos defectuosos en la investigación sanitaria, no solo análisis de aprendizaje automático defectuosos, sino también análisis estadísticos estándar defectuosos.

  2. La validación cruzada sólo le ayuda a estimar la predicción fuera de la muestra, pero no le ayudará a corregir los errores estándar o los valores p de los coeficientes individuales de un modelo. Puede utilizar bootstrap para ello, donde los pasos de eliminación de características y selección de modelos se repiten en cada repetición bootstrap.

  3. El aprendizaje automático no es magia. Si tiene miedo de ajustar en exceso algún modelo estadístico estándar, no le servirá de nada utilizar un modelo aún más flexible. Diversas métricas de importancia de características no son mejoras de sus herramientas estadísticas estándar, sino más bien malas aproximaciones. Por lo general, sólo indican lo que ocurre en el modelo, pero no permiten hacer inferencias sobre los efectos en la población. Además, el objetivo de un modelo estadístico no es sólo encontrar una relación entre variables, sino estimar el efecto de una variable al tiempo que se corrigen otras variables u otras estructuras conocidas de los datos.

  4. La selección hacia atrás no es una herramienta recomendada, y los estadísticos advierten activamente contra ella. Si lo que te importa es que la inferencia estadística sea válida, la solución no es cambiar la mala estadística por el aprendizaje automático, sino utilizar buena estadística. No estoy diciendo que el aprendizaje automático no tenga su lugar en la investigación sanitaria, y que no pueda haber preguntas de investigación interesantes que se respondan utilizando métodos de ML, pero no es una solución automática a los problemas estadísticos.

17voto

jhin Puntos 106

Como complemento a la excelente respuesta de Frank Harrell, ahora hay una serie de estudios que básicamente encuentran exactamente lo que uno esperaría:

Aunque no solucionan el problema, unas técnicas de evaluación adecuadas (sobre todo: externas) ayudan al menos a ser conscientes de él, como también argumentó Frank en este excelente artículo .

Por último, como autoengaño desvergonzado, abordamos una serie de retos técnicos relacionados en una encuesta reciente nuestra sobre el ML responsable para la medicina .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X