¿Por qué el bosque aleatorio OOB estimación de error mejorar cuando el número de las funciones seleccionadas se han disminuido?

Question

¿Por qué el bosque aleatorio OOB estimación de error mejorar cuando el número de las funciones seleccionadas se han disminuido?

Preguntado el 3 de Septiembre, 2010: Cuando se hizo la pregunta
3157 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy aplicando un bosque aleatorio algoritmo como un clasificador en un conjunto de datos de microarrays que se dividen en dos grupos conocidos con 1000 de características. Después de la ejecución inicial miro a la importancia de las características y ejecutar el algoritmo de árbol de nuevo con los 5, 10 y 20 características más importantes. Me parece que para todas las características, top 10 y 20 que el OOB estimación de la tasa de error es de 1.19%, donde como para el top 5 de las características del 0%. Esto parece contra-intuitivo para mí, así que me preguntaba si usted podría explicar si me falta algo o estoy usando mal la métrica.

Estoy usando el randomForest paquete en R con ntree=1000, nodesize=1 y mtry=sqrt(n)

Preguntado el 3 de Septiembre, 2010 por Julio César

Answer 1

1 Respuestas

Answer 2

17voto

ESRogs Puntos 1381

Esta es la selección de características overfit y esto es bastante conocido -- ver Ambroise & McLachlan de 2002. El problema se basa en los hechos que la RF es demasiado inteligente y el número de objetos es demasiado pequeño. En el último caso, generalmente es bastante fácil crear de forma aleatoria atributo que puede tener una buena correlación con la decisión. Y cuando el número de atributos es grande, usted puede estar seguro de que algunos de totalmente irrelevantes será una muy buena predictores, incluso lo suficiente como para formar un clúster que va a ser capaz de recrear la decisión en el 100%, especialmente cuando la enorme flexibilidad de RF. Y así, resulta obvio que cuando se le indique para encontrar el mejor subconjunto de atributos, el FS procedimiento se encuentra este clúster.
Una solución (CV) se da en Un&McL, también puede probar nuestro enfoque del tema, la Boruta algoritmo, que básicamente se extiende el set con "la sombra de atributos" que se hizo al azar por el diseño y compara sus RF importancia a este obtenidos para los atributos reales para juzgar cuáles de ellos son realmente aleatorios y pueden ser eliminados; esto se replica muchas veces a ser significativo. Boruta pretende un poco diferente de la tarea, pero hasta mis pruebas mostraron, el conjunto resultante está libre de la FS overfit problema.

Respondido el 3 de Septiembre, 2010 por ESRogs (1381 Puntos )

¿Por qué el bosque aleatorio OOB estimación de error mejorar cuando el número de las funciones seleccionadas se han disminuido?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Por qué el bosque aleatorio OOB estimación de error mejorar cuando el número de las funciones seleccionadas se han disminuido?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: