Tengo un bosque aleatorio clasificador binario, pero los resultados de la feature importances
son un poco errática. Aquí es lo que quiero saber: ¿multicolinealidad lío feature_importances_
en un RandomForestClassifier?
Estoy usando sci-kit learn
(sklearn
en python) para el bosque aleatorio clasificador, y obtener la función de las importancias.
Para validar la salida de feature_importances_
de la RandomForestClassifier en sklearn, he probado la eliminación de la característica más importante de cada momento (por ejemplo, la función con la mayor característica de importancia, a ver si la segunda característica más importante aparecería como la característica más importante en la próxima iteración.... Pero, esto nunca sucedió.
Los resultados de este fueron muy erráticos, y el orden de la función de las importancias que no se haya conservado. En cada iteración, no era una característica con una muy alta importancia (como el 0,7 o 0,8), todos los demás entre 0.1 y 0.0001. Hubo 9 características para iniciar. El segundo más alto de la característica de importancia nunca apareció como el más importante en la siguiente iteración.
No multicollinearity
estropear la función de importancias, o es que hay algo que me falta, que se mete a esto?