¿Cuál es la razón detrás de la gran diferencia en la selección de mtry en RandomForest para la Clasificación y regresión?

Question

¿Cuál es la razón detrás de la gran diferencia en la selección de mtry en RandomForest para la Clasificación y regresión?

Preguntado el 14 de Septiembre, 2016: Cuando se hizo la pregunta
181 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

El valor predeterminado/valor recomendado de mtry es P/3 para la regresión de la tarea, mientras que es SquareRoot(P) para una tarea de clasificación. (donde P es el número de variables)

Según mi comprensión de la idea fundamental detrás de RF está utilizando más pequeño subconjunto de variables en el Bosque Aleatorio es crear débil y diversos clasificadores y agregarlas a uno más fuerte clasificador.

Pero no pude encontrar ninguna documentación específica sobre el por qué de una regresión de la tarea tiene un valor predeterminado de P/3 en lugar de SquareRoot(P).

Es algo específico de Bosque Aleatorio?Si es así ¿qué es?

O

Es más fundamentales como la diferencia entre el rendimiento/construcción de regresión y clasificación de los árboles que dicta RF.

No estoy buscando una completa simplificado respuesta, sólo me apunte a la derecha de la literatura enlaces :)

Gracias!

Preguntado el 14 de Septiembre, 2016 por Lunar Mushrooms

Answer 1

1 Respuestas

Answer 2

4voto

sherri Puntos 21

La única fuente útil que he encontrado para esto es el papel original de RF de la misma: http://machinelearning202.pbworks.com/w/file/fetch/60606349/breiman_randomforests.pdf

A la cita "Una interesante diferencia entre la regresión y clasificación es que la correlación aumenta muy lentamente a medida que el número de funciones que se usan con los aumentos. El principal efecto es la disminución de la PE*( árbol). Por lo tanto, una relativamente grande número de características que son necesarios para reducir la PE*(árbol) y obtener cerca de óptima testset error."

Así que, básicamente, en la clasificación de la fuerza no aumenta mucho con el aumento de las características de la división, pero la correlación hizo, por lo que recomendamos el uso de un menor número de características. Mientras que en la regresión de la resistencia del árbol aumenta(error disminuye), mientras que la correlación aumenta lentamente de manera que un mayor número de características se utilizan para obtener un rendimiento óptimo.

Supongo que se podía leer sus experimentos sobre diferentes conjuntos de datos con un número de características para la clasificación y regresión y sacar su propia conclusión.

Respondido el 16 de Septiembre, 2016 por sherri (21 Puntos )

¿Cuál es la razón detrás de la gran diferencia en la selección de mtry en RandomForest para la Clasificación y regresión?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cuál es la razón detrás de la gran diferencia en la selección de mtry en RandomForest para la Clasificación y regresión?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: