8 votos

¿cómo multicolinealidad afectar a la función de importancias en el bosque aleatorio clasificador?

Tengo un bosque aleatorio clasificador binario, pero los resultados de la feature importances son un poco errática. Aquí es lo que quiero saber: ¿multicolinealidad lío feature_importances_ en un RandomForestClassifier?

Estoy usando sci-kit learn (sklearn en python) para el bosque aleatorio clasificador, y obtener la función de las importancias.

Para validar la salida de feature_importances_ de la RandomForestClassifier en sklearn, he probado la eliminación de la característica más importante de cada momento (por ejemplo, la función con la mayor característica de importancia, a ver si la segunda característica más importante aparecería como la característica más importante en la próxima iteración.... Pero, esto nunca sucedió.

Los resultados de este fueron muy erráticos, y el orden de la función de las importancias que no se haya conservado. En cada iteración, no era una característica con una muy alta importancia (como el 0,7 o 0,8), todos los demás entre 0.1 y 0.0001. Hubo 9 características para iniciar. El segundo más alto de la característica de importancia nunca apareció como el más importante en la siguiente iteración.

No multicollinearity estropear la función de importancias, o es que hay algo que me falta, que se mete a esto?

5voto

user41374 Puntos 1

Sí, la multicolinealidad definitivamente puede afectar a la variable de importancias en el bosque aleatorio modelos. Intuitivamente, puede ser difícil de calificar la importancia relativa de las distintas variables si tienen el mismo o similar subyacente efecto, que está implícita en la multicolinealidad. Es decir, si podemos acceder a la subyacente efecto mediante la medición de más de una variable, no es fácil decir que está causando el efecto, o si son de mutuo síntomas de un tercer efecto.

Una discusión de esta propiedad de los bosques aleatorios (y de regresión logística de las preguntas más general) se puede encontrar en las siguientes notas de la conferencia, entre otras fuentes:

http://cogsci.ucmerced.edu/shih/shih_randomforests.pdf

Una forma común para ajustar para que esto está en la variable de la fase de selección, mediante la selección de uno de los multicollinear variables para mantener, mientras que la eliminación de otros. Esto viene, por supuesto, con sus propios problemas potenciales - eliminando potencialmente parcialmente efectos únicos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X