Estaba leyendo sobre fallos en las técnicas de selección de modelos como la eliminación basada en la significación y la selección hacia atrás mediante AIC (o similar) en el contexto de la regresión, que conducen a coeficientes inflados, intervalos de confianza estrechos y valores p inferiores a lo que deberían ser.
En el ámbito de la salud, en el que trabajo, no es raro ver técnicas de este tipo en artículos de revistas. Aunque técnicas como la división entrenamiento/prueba y la validación cruzada pueden reducir este problema, tampoco suelen utilizarse, ya que el objetivo principal es la inferencia estadística y no la predicción per se.
Esto me llevó a plantearme las siguientes preguntas:
-
Dado que muchas investigaciones en el ámbito de la salud utilizan estas técnicas de selección de modelos sin corregirlas, ¿significa esto que es probable que muchos modelos en este ámbito estén sobreajustados y, por tanto, que los resultados de estos artículos estén inflados?
-
Aunque el objetivo principal es la inferencia y no la predicción, parece que estos modelos de regresión pueden estar sobreajustados. Dado que estos artículos a menudo no entrenan:prueban o validan de forma cruzada, ¿es esta otra fuente de sobreajuste que podría estar muy extendida en este ámbito?
-
Aunque el aprendizaje automático se centra sobre todo en la predicción, ¿no podría ser también una opción válida para describir relaciones y reducir al mismo tiempo el exceso de ajuste que, según mi hipótesis, se produce cuando los investigadores utilizan estos métodos estadísticos? Después de todo, si un algoritmo puede predecir con un rendimiento decente en un conjunto de datos no visto, entonces claramente "entiende" la relación entre las variables y el resultado (mientras que algunos algoritmos pueden ser de caja negra, muchos tienen herramientas de importancia de características (RF, XGBoost) y se pueden considerar técnicas xAI para dilucidar estas relaciones).
-
Dado que las técnicas de aprendizaje automático suelen estar mejor equipadas cuando las características son muchas, ¿podría ser una solución adecuada para la selección de modelos derivar las características más importantes de los algoritmos de aprendizaje automático que obtienen mejores resultados y utilizarlas después para la predicción? Esto parece una opción mejor que la selección de modelos basada en la significación o la selección hacia atrás.
No soy experto en ninguno de los campos relacionados con esta pregunta, así que disculpe mi ignorancia.