68 votos

¿Ganó ' t altamente correlacionadas las variables al azar bosque distorsionan la precisión y selección de características?

A mi entender, muy correlacionadas con las variables de no causar múltiples problemas de multicolinealidad en el azar de bosques modelo (por Favor corríjanme si estoy equivocado). Sin embargo, en la otra forma, si tengo demasiadas variables que contienen información similar, el modelo de peso demasiado, en este conjunto en lugar de los demás?

Por ejemplo, hay dos conjuntos de información (a,B) con el mismo poder predictivo. Variable X1,X2,...X1000 todos contienen la información de Una, y sólo Y contiene la información de B. Cuando el muestreo aleatorio de las variables, en la mayoría de los árboles que crecen en la información de Una, y como resultado de la información B no es totalmente capturado?

33voto

Mirko Friedenhagen Puntos 304

Eso es correcto. Pero por lo tanto en la mayoría de los sub-muestras donde la variable Y que estaba disponible, se iba a producir la mejor posible dividir.

Usted puede tratar de aumentar mtry, para asegurarse de que esto sucede más a menudo.

Usted puede tratar ya sea recursiva de correlación de la poda, que se convierte en para eliminar una de las dos variables de las cuales en conjunto tienen la mayor correlación. Una sensata umbral para detener esta poda puede ser que cualquier par de correlaciones(pearson) es menor que R^2<.7

Usted puede tratar recursiva de la variable importancia de la poda, que es en vueltas a quitar por ejemplo, el 20% con menor importancia variable. Pruebe por ejemplo, rfcv de randomForest paquete.

Usted puede probar algunas de descomposición/agregación de sus variables redundantes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X