10 votos

Se muestra la página de selección de características.

Estoy tratando de construir un clasificador binario a partir de un tamaño relativamente grande médicos conjunto de datos (1 - enfermedad, 0 - no enfermedad). El conjunto de datos contiene alrededor de 500 pacientes, de los cuales el 9% de tener la enfermedad, y alrededor de 70 funciones (variables predictoras). Me gustaría probar: 1) selección de la función - para reducir el número de características 2) HIRIÓ de equilibrio del conjunto de datos de entrenamiento. 3) Aplicar el clasificador 4) Aplicar la validación cruzada

Cual es el mejor enfoque paso a paso? Especialmente tengo un dilema acerca de cuándo utilizar la función de selección? Si yo lo uso antes de HIRIÓ, las características seleccionadas, podría ser parcial? Pero la aplicación de antes, tengo un desequilibrio en el problema de datos. También, cuando es el momento adecuado para hacer la validación cruzada?

6voto

EdM Puntos 5716

Este documento argumenta que la selección de características antes de HIRIÓ (Sintético de la Minoría de Corrección Técnica) es el preferido, y como mínimo:

... la realización de selección de variables después de usar HIRIÓ debe ser realizada con cuidado porque la mayoría de los métodos de selección de variables suponga que las muestras son independientes.

Sobremuestreo de la clase minoritaria con HIRIÓ viola la independencia de la asunción.

Para su aplicación, no está claro que HIRIÓ dará ventajas sobre el estándar penalizado enfoques, como el LAZO o la cresta de regresión. También, tenga cuidado con su enfoque en la "sensibilidad, exactitud, precisión, recall y F1 score" como la optimización de los objetivos. Se esconden supuestos implícitos acerca de los costos relativos de los dos tipos de errores en las clasificaciones. Lo mejor es desarrollar un modelo fiable para las probabilidades en primer lugar, entonces, si la clasificación es necesario tomar costos y los beneficios relativos en cuenta.

La validación cruzada sin duda podría ser utilizado en su función de selección de proceso, por ejemplo, elegir el valor de penalización por LASSO (y por lo tanto el número de funciones de mantenimiento). Tenga en cuenta que las características particulares seleccionados por el algoritmo son probablemente difieren de muestra a muestra, y usted debería considerar la posibilidad de que el problema de como proceder.

La validación de todo el proceso para el desarrollo del modelo, incluyendo la función de selección de proceso, también se podría hacer con validación cruzada o, quizás mejor, repitiendo el proceso en varias muestras bootstrap de los datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X