14 votos

¿Algoritmos y métodos para la selección de atributos y características?

Tengo datos con clase continua y estoy buscando buenos métodos para reducir el número de atributos. Ahora estoy usando filtros basados en la correlación, bosques aleatorios y el algoritmo Gram-Schmidt.

Lo que quiero lograr es responder qué atributos son más importantes/relevantes para el atributo de clase que otros.

Usando los métodos que mencioné antes puedo alcanzar este objetivo, pero ¿hay algún otro buen algoritmo que valga la pena notar?

0 votos

¿Importante o relevante para qué?

0 votos

Relevante para el atributo de clase...

7voto

ESRogs Puntos 1381

Mi corazón estará siempre con RF, pero aún así puedes echar un vistazo a Rough Sets. Especialmente LERS funciona bastante bien en el caso de datos masivamente perturbados.
También puede probar con la importancia obtenida de otros clasificadores, como SVM o Random Naive Bayes.

0 votos

En realidad mis datos son bastante pequeños (~100 ejemplos) y el clasificador es el resultado de utilizar PCA (por eso es continuo). De nuevo, ¿puedo utilizar LERS, SVM o RNB con un clasificador continuo?

1 votos

@pixel Para SVM ciertamente (se llama regresión SVM), para RNB puede que no haya una implementación, pero se puede hacer como en RF. Si no, y con LERS puede simplemente particionar la decisión en grupos discretos -- es un truco común y será suficiente para la selección de características.

5voto

Jay Puntos 395

En Vista de tareas sobre aprendizaje automático y aprendizaje estadístico es un buen punto de partida para este tipo de preguntas.

4voto

John Richardson Puntos 1197

La regresión regularizada con un término de penalización L1 me ha dado buenos resultados (por ejemplo, LASSO y LARS).

4voto

Boris Tsirelson Puntos 191

Soy un gran fan del rfe del paquete caret. Puede utilizarla fácilmente para validar de forma cruzada clasificaciones de importancia de características de un bosque aleatorio, un modelo lineal, un modelo de árbol empaquetado, un modelo bayesiano ingenuo o cualquier otro algoritmo que devuelva una medida de importancia de variables.

Puede Más información .

2voto

Helixso Puntos 65

He obtenido buenos resultados con los procedimientos de selección de características por conjuntos. Para la implementación puede echar un vistazo a la Biblioteca Java-ML .

Para referencias, véase por ejemplo aquí .

Creo que estos procedimientos también están disponibles en R.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X