1 votos

Asociación entre los grupos de características y la variable de resultado

Estoy trabajando con un conjunto de datos de alta dimensión (por ejemplo, ~150 características) y posibles factores de confusión (por ejemplo, ~10 características a controlar). El objetivo es identificar la asociación con una variable de resultado que es categórica. Algunos ejemplos de problemas en los que esto es relevante son la genómica y la protoemica. Se tendría un conjunto de datos donde cada fila es un individuo y las columnas son genes. Las variables de confusión incluyen la edad, el peso, el sexo, la presión arterial, etc. La variable de resultado sería una característica clínica, como la presencia o ausencia de una enfermedad.

Como primer paso para abordar este problema, identifico las asociaciones individuales, es decir, realizo 150 regresiones, y utilizo la tasa de falsos descubrimientos para encontrar asociaciones significativas.

Además, me interesa identificar grupos de características que, en conjunto, se asocian con la variable de resultado. No conozco un método sencillo para este tipo de análisis. Me viene a la mente la minería de reglas de asociación, pero quería saber si hay procedimientos estándar que den asociaciones junto con su significación estadística. La hipótesis aquí es que normalmente no es un gen individual, sino grupos de varios genes que actúan juntos los que influyen en el resultado. Podría haber más de un grupo asociado, y el objetivo sería clasificar esos grupos por la magnitud de sus asociaciones. Uno de los posibles problemas es la correlación entre las características.

Esto podría parecer una pregunta exploratoria, pero saber más sobre las posibles direcciones también sería de gran ayuda. La razón es que, aunque tengo un conocimiento bastante amplio de la estadística y el aprendizaje automático, no recuerdo haber visto estos problemas en los libros de texto estándar o en los cursos. También son bienvenidas las indicaciones sobre trabajos de investigación que detallen estos métodos. También lo son las formas de utilizar métodos no tradicionales como los árboles de decisión o las redes neuronales para identificar dichas asociaciones (aunque sean menos explicables).

1voto

user203465 Puntos 1

Pregunta desafiante. Es probable que los grupos de variables de características muestren algunas dependencias más profundas. El espacio de búsqueda es grande y el clasificador óptimo es realmente difícil de encontrar. El rendimiento discriminativo de su clasificador es el único criterio que es útil para determinar si un subconjunto de características predice bien su resultado categórico.

Mi sugerencia es que realices una búsqueda paralela de los subconjuntos de características con mejor rendimiento en términos de rendimiento del clasificador. Uno de estos enfoques es el de Siedlecki y Sklansky. Desarrollaron un prometedor enfoque de algoritmo genético para recorrer el espacio de características. Se puede utilizar su enfoque para la selección de características con, por ejemplo, redes neuronales o clasificadores de bosque aleatorio.

Referencia

Siedlecki W., & Sklansky J. (1989). A note on genetic algorithms for largescale feature selection. Pattern Recognition Letters, 10 (5), 335-347.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X