Antecedentes
Estoy haciendo investigación clínica en medicina y he tomado varios cursos de estadística. Nunca he publicado un trabajo usando regresión lineal/logística y me gustaría hacer una selección de variables correctamente. La interpretabilidad es importante, así que no hay técnicas de aprendizaje de máquinas de lujo. He resumido mi comprensión de la selección de variables - ¿a alguien le importaría arrojar luz sobre cualquier concepto erróneo? He encontrado dos (1) similar (2) CV posts a este, pero no respondieron completamente a mis preocupaciones. ¡Cualquier pensamiento sería muy apreciado! Tengo tres preguntas principales al final.
Problema y Discusión
Mi típico problema de regresión/clasificación tiene 200-300 observaciones, una tasa de eventos adversos del 15% (si la clasificación), e información sobre 25 de las 40 variables que se ha afirmado que tienen un efecto "estadísticamente significativo" en la literatura o que tienen un sentido plausible por el conocimiento del dominio.
Puse "estadísticamente significativo" entre comillas, porque parece que todos y su madre usan regresión por pasos, pero Harrell (3) y Flom (4) no parece gustarles por varias buenas razones. Esto se apoya además en un Discusión del blog de Gelman (5). Parece que el único tiempo real en que el paso a paso es aceptable es si se trata de un análisis verdaderamente exploratorio, o si uno está interesado en la predicción y tiene un esquema de validación cruzada involucrado. Especialmente porque muchas comorbilidades médicas sufren de colinealidad Y los estudios sufren de un tamaño de muestra pequeño, mi entendimiento es que habrá muchos falsos positivos en la literatura; esto también hace que sea menos probable que confíe en la literatura para que se incluyan variables potenciales.
Otro enfoque popular es utilizar una serie de regresiones/asociaciones univariantes entre los predictores y la variable independiente como punto de partida. por debajo de un umbral determinado (digamos, p < 0,2). Esto parece incorrecto o al menos engañoso por las razones expuestas en este puesto de StackExchange (6).
Por último, un enfoque automatizado que parece popular en el aprendizaje automático es utilizar la penalización como L1 (Lasso), L2 (Ridge), o el combo L1+L2 (Red Elástica). Mi entendimiento es que estas no tienen las mismas interpretaciones fáciles que la OLS o la regresión logística.
Gelman + Hill proponen lo siguiente:
En mi curso de estadísticas, también recuerdo haber usado pruebas F o Análisis de Desviación para comparar modelos completos y anidados para hacer una selección modelo/variable variable por variable. Esto parece razonable, pero el ajuste de modelos anidados secuenciales sistemáticamente para encontrar las variables que causan la mayor caída de la desviación por df parece que podría automatizarse fácilmente (por lo que me preocupa un poco) y también parece que sufre problemas del orden en que se prueba la inclusión de las variables. Entiendo que esto también debería complementarse con la investigación de la multicolinealidad y las gráficas residuales (residual vs. pronosticada).
Preguntas:
-
¿Es el resumen de Gelman el camino a seguir? ¿Qué agregaría o cambiaría en su estrategia propuesta?
-
Aparte de pensar puramente en las interacciones y transformaciones potenciales (que parecen muy propensas al sesgo/error/omisión), ¿hay otra forma de descubrir las potenciales? Multivariate adaptive regression spline (MARS) me fue recomendado, pero se me informó que las no linealidades/transformaciones no se traducen en las mismas variables en un modelo de regresión estándar.
-
Supongamos que mi objetivo es muy simple: decir, "Me gustaría estimar la asociación de X1 sobre Y, sólo teniendo en cuenta X2". ¿Es adecuado simplemente hacer una regresión de Y ~ X1 + X2, informar del resultado, sin referencia a la capacidad de predicción real (como podría medirse por medio de medidas de validación cruzada RMSE o de precisión)? ¿Cambia esto dependiendo de la tasa de eventos o del tamaño de la muestra, o si R^2 es súper bajo (soy consciente de que R^2 no es bueno porque siempre se puede aumentar por sobreajuste)? En general, estoy más interesado en la inferencia/interpretación que en la optimización del poder de predicción.
Ejemplo de conclusiones:
- "El control para X2, X1 no se asoció de manera estadísticamente significativa con Y en relación al nivel de referencia de X1". (coeficiente de regresión logística)
- "X1 no fue un predictor estadísticamente significativo de Y ya que en el modelo la caída de la desviación no fue suficiente en relación con el cambio de df". (Análisis de la desviación)
¿Es siempre necesaria la validación cruzada? En cuyo caso, uno podría también querer hacer algún balance de las clases a través de SMOTE, muestreo, etc.