15 votos

¿Por qué el bosque aleatorio OOB estimación de error mejorar cuando el número de las funciones seleccionadas se han disminuido?

Estoy aplicando un bosque aleatorio algoritmo como un clasificador en un conjunto de datos de microarrays que se dividen en dos grupos conocidos con 1000 de características. Después de la ejecución inicial miro a la importancia de las características y ejecutar el algoritmo de árbol de nuevo con los 5, 10 y 20 características más importantes. Me parece que para todas las características, top 10 y 20 que el OOB estimación de la tasa de error es de 1.19%, donde como para el top 5 de las características del 0%. Esto parece contra-intuitivo para mí, así que me preguntaba si usted podría explicar si me falta algo o estoy usando mal la métrica.

Estoy usando el randomForest paquete en R con ntree=1000, nodesize=1 y mtry=sqrt(n)

17voto

ESRogs Puntos 1381

Esta es la selección de características overfit y esto es bastante conocido -- ver Ambroise & McLachlan de 2002. El problema se basa en los hechos que la RF es demasiado inteligente y el número de objetos es demasiado pequeño. En el último caso, generalmente es bastante fácil crear de forma aleatoria atributo que puede tener una buena correlación con la decisión. Y cuando el número de atributos es grande, usted puede estar seguro de que algunos de totalmente irrelevantes será una muy buena predictores, incluso lo suficiente como para formar un clúster que va a ser capaz de recrear la decisión en el 100%, especialmente cuando la enorme flexibilidad de RF. Y así, resulta obvio que cuando se le indique para encontrar el mejor subconjunto de atributos, el FS procedimiento se encuentra este clúster.
Una solución (CV) se da en Un&McL, también puede probar nuestro enfoque del tema, la Boruta algoritmo, que básicamente se extiende el set con "la sombra de atributos" que se hizo al azar por el diseño y compara sus RF importancia a este obtenidos para los atributos reales para juzgar cuáles de ellos son realmente aleatorios y pueden ser eliminados; esto se replica muchas veces a ser significativo. Boruta pretende un poco diferente de la tarea, pero hasta mis pruebas mostraron, el conjunto resultante está libre de la FS overfit problema.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X