En un conjunto de datos de dos poblaciones no superpuestas (pacientes y sanos, total $n=60$ ) Me gustaría encontrar (fuera de $300$ variables independientes) predictores significativos para una variable dependiente continua. La correlación entre los predictores está presente. Me interesa averiguar si alguno de los predictores está relacionado con la variable dependiente "en realidad" (en lugar de predecir la variable dependiente con la mayor exactitud posible). Como me he visto abrumado por los numerosos enfoques posibles, me gustaría preguntar qué enfoque es el más recomendable.
-
A mi entender, la inclusión o exclusión por pasos de los predictores es no se recomienda
-
Por ejemplo, realizar una regresión lineal por separado para cada predictor y corregir los valores p de las comparaciones múltiples mediante FDR (probablemente muy conservador).
-
Regresión de componentes principales: difícil de interpretar, ya que no podré hablar del poder predictivo de los predictores individuales, sino sólo de los componentes.
-
¿alguna otra sugerencia?