8 votos

¿Cuál es la razón detrás de la gran diferencia en la selección de mtry en RandomForest para la Clasificación y regresión?

El valor predeterminado/valor recomendado de mtry es P/3 para la regresión de la tarea, mientras que es SquareRoot(P) para una tarea de clasificación. (donde P es el número de variables)

Según mi comprensión de la idea fundamental detrás de RF está utilizando más pequeño subconjunto de variables en el Bosque Aleatorio es crear débil y diversos clasificadores y agregarlas a uno más fuerte clasificador.

Pero no pude encontrar ninguna documentación específica sobre el por qué de una regresión de la tarea tiene un valor predeterminado de P/3 en lugar de SquareRoot(P).

Es algo específico de Bosque Aleatorio?Si es así ¿qué es?

O

Es más fundamentales como la diferencia entre el rendimiento/construcción de regresión y clasificación de los árboles que dicta RF.

No estoy buscando una completa simplificado respuesta, sólo me apunte a la derecha de la literatura enlaces :)

Gracias!

4voto

sherri Puntos 21

La única fuente útil que he encontrado para esto es el papel original de RF de la misma: http://machinelearning202.pbworks.com/w/file/fetch/60606349/breiman_randomforests.pdf

A la cita "Una interesante diferencia entre la regresión y clasificación es que la correlación aumenta muy lentamente a medida que el número de funciones que se usan con los aumentos. El principal efecto es la disminución de la PE*( árbol). Por lo tanto, una relativamente grande número de características que son necesarios para reducir la PE*(árbol) y obtener cerca de óptima testset error."

Así que, básicamente, en la clasificación de la fuerza no aumenta mucho con el aumento de las características de la división, pero la correlación hizo, por lo que recomendamos el uso de un menor número de características. Mientras que en la regresión de la resistencia del árbol aumenta(error disminuye), mientras que la correlación aumenta lentamente de manera que un mayor número de características se utilizan para obtener un rendimiento óptimo.

Supongo que se podía leer sus experimentos sobre diferentes conjuntos de datos con un número de características para la clasificación y regresión y sacar su propia conclusión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X