Estoy trabajando con un conjunto de datos de alta dimensión (por ejemplo, ~150 características) y posibles factores de confusión (por ejemplo, ~10 características a controlar). El objetivo es identificar la asociación con una variable de resultado que es categórica. Algunos ejemplos de problemas en los que esto es relevante son la genómica y la protoemica. Se tendría un conjunto de datos donde cada fila es un individuo y las columnas son genes. Las variables de confusión incluyen la edad, el peso, el sexo, la presión arterial, etc. La variable de resultado sería una característica clínica, como la presencia o ausencia de una enfermedad.
Como primer paso para abordar este problema, identifico las asociaciones individuales, es decir, realizo 150 regresiones, y utilizo la tasa de falsos descubrimientos para encontrar asociaciones significativas.
Además, me interesa identificar grupos de características que, en conjunto, se asocian con la variable de resultado. No conozco un método sencillo para este tipo de análisis. Me viene a la mente la minería de reglas de asociación, pero quería saber si hay procedimientos estándar que den asociaciones junto con su significación estadística. La hipótesis aquí es que normalmente no es un gen individual, sino grupos de varios genes que actúan juntos los que influyen en el resultado. Podría haber más de un grupo asociado, y el objetivo sería clasificar esos grupos por la magnitud de sus asociaciones. Uno de los posibles problemas es la correlación entre las características.
Esto podría parecer una pregunta exploratoria, pero saber más sobre las posibles direcciones también sería de gran ayuda. La razón es que, aunque tengo un conocimiento bastante amplio de la estadística y el aprendizaje automático, no recuerdo haber visto estos problemas en los libros de texto estándar o en los cursos. También son bienvenidas las indicaciones sobre trabajos de investigación que detallen estos métodos. También lo son las formas de utilizar métodos no tradicionales como los árboles de decisión o las redes neuronales para identificar dichas asociaciones (aunque sean menos explicables).