Asociación entre los grupos de características y la variable de resultado

Question

Asociación entre los grupos de características y la variable de resultado

Preguntado el 31 de Julio, 2020: Cuando se hizo la pregunta
67 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy trabajando con un conjunto de datos de alta dimensión (por ejemplo, ~150 características) y posibles factores de confusión (por ejemplo, ~10 características a controlar). El objetivo es identificar la asociación con una variable de resultado que es categórica. Algunos ejemplos de problemas en los que esto es relevante son la genómica y la protoemica. Se tendría un conjunto de datos donde cada fila es un individuo y las columnas son genes. Las variables de confusión incluyen la edad, el peso, el sexo, la presión arterial, etc. La variable de resultado sería una característica clínica, como la presencia o ausencia de una enfermedad.

Como primer paso para abordar este problema, identifico las asociaciones individuales, es decir, realizo 150 regresiones, y utilizo la tasa de falsos descubrimientos para encontrar asociaciones significativas.

Además, me interesa identificar grupos de características que, en conjunto, se asocian con la variable de resultado. No conozco un método sencillo para este tipo de análisis. Me viene a la mente la minería de reglas de asociación, pero quería saber si hay procedimientos estándar que den asociaciones junto con su significación estadística. La hipótesis aquí es que normalmente no es un gen individual, sino grupos de varios genes que actúan juntos los que influyen en el resultado. Podría haber más de un grupo asociado, y el objetivo sería clasificar esos grupos por la magnitud de sus asociaciones. Uno de los posibles problemas es la correlación entre las características.

Esto podría parecer una pregunta exploratoria, pero saber más sobre las posibles direcciones también sería de gran ayuda. La razón es que, aunque tengo un conocimiento bastante amplio de la estadística y el aprendizaje automático, no recuerdo haber visto estos problemas en los libros de texto estándar o en los cursos. También son bienvenidas las indicaciones sobre trabajos de investigación que detallen estos métodos. También lo son las formas de utilizar métodos no tradicionales como los árboles de decisión o las redes neuronales para identificar dichas asociaciones (aunque sean menos explicables).

Preguntado el 31 de Julio, 2020 por Desiato

Answer 1

1 Respuestas

Answer 2

1voto

user203465 Puntos 1

Pregunta desafiante. Es probable que los grupos de variables de características muestren algunas dependencias más profundas. El espacio de búsqueda es grande y el clasificador óptimo es realmente difícil de encontrar. El rendimiento discriminativo de su clasificador es el único criterio que es útil para determinar si un subconjunto de características predice bien su resultado categórico.

Mi sugerencia es que realices una búsqueda paralela de los subconjuntos de características con mejor rendimiento en términos de rendimiento del clasificador. Uno de estos enfoques es el de Siedlecki y Sklansky. Desarrollaron un prometedor enfoque de algoritmo genético para recorrer el espacio de características. Se puede utilizar su enfoque para la selección de características con, por ejemplo, redes neuronales o clasificadores de bosque aleatorio.

Referencia

Siedlecki W., & Sklansky J. (1989). A note on genetic algorithms for largescale feature selection. Pattern Recognition Letters, 10 (5), 335-347.

Respondido el 31 de Julio, 2020 por user203465 (1 Puntos )

Asociación entre los grupos de características y la variable de resultado

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Asociación entre los grupos de características y la variable de resultado

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: