19 votos

¿En qué condiciones las máquinas de refuerzo de gradiente superan a los bosques aleatorios?

Puede La máquina de aumento de gradiente de Friedman lograr un mejor rendimiento que Bosque aleatorio de Breiman ? Si es así, ¿en qué condiciones o qué tipo de conjunto de datos puede mejorar el gbm?

6 votos

No hay manera de saberlo a priori; hay que probarlo.

0 votos

Bueno, en la práctica, el Boosting casi siempre supera al RF... Aunque no sé exactamente por qué, personalmente no he encontrado ningún caso en el que la RF haya superado al Boosting.

0 votos

@Antoine aprender con datos no etiquetados y/o con ruido de etiqueta es un caso de uso particularmente terrible para el boosting.

13voto

ebricca Puntos 31

A continuación se explica por qué Boosting suele superar a Random Forest en la práctica, pero me interesaría mucho saber qué otros factores diferentes pueden explicar la ventaja de Boosting sobre RF en escenarios específicos.

Básicamente, dentro del $error=bias+variance$ la RF sólo puede reducir el error mediante la reducción de la varianza ( Hastie et al. 2009 p. 588). El sesgo es fijo e igual al sesgo de un solo árbol en el bosque (de ahí la necesidad de cultivar árboles muy grandes, que tienen un sesgo muy bajo).

Por otro lado, el Boosting reduce el sesgo (al añadir cada nuevo árbol en la secuencia de manera que se captura lo que se perdió por el árbol anterior), pero también varianza (mediante la combinación de muchos modelos).

Por lo tanto, el refuerzo reduce el error en ambos frentes, mientras que la RF sólo puede reducir el error mediante la reducción de la varianza. Por supuesto, como he dicho, puede haber otras explicaciones para el mejor rendimiento de Boosting observado en la práctica. Por ejemplo, en la página 591 del libro mencionado, se dice que Boosting supera a RF en el problema de la esfera anidada porque en ese caso particular el el verdadero límite de decisión es aditivo . ( ) También informan de que Boosting lo hace mejor que RF para el spam y los datos de vivienda de California.

Otra referencia que ha encontrado que el Boosting supera a la RF es Caruana y Niculescu-Mizil 2006 . Desgraciadamente, informan de los resultados pero no intentan explicar las causas. Compararon los dos clasificadores (y muchos más) en 11 problemas de clasificación binaria para 8 métricas de rendimiento diferentes.

7voto

Even Mien Puntos 10122

Como dijo bayerj, ¡no hay forma de saberlo a priori!

Bosques aleatorios son relativamente fáciles de calibrar: los parámetros por defecto de la mayoría de las implementaciones (R o Python, por ejemplo) consiguen grandes resultados.

Por otro lado, GBMs son difíciles de ajustar (un número demasiado grande de árboles conduce a un sobreajuste, la profundidad máxima es crítica, la tasa de aprendizaje y el número de árboles actúan conjuntamente...) y más largos de entrenar (las implementaciones multihilo son escasas). Un ajuste poco preciso puede dar lugar a un bajo rendimiento.

Sin embargo, según mi experiencia, si se dedica suficiente tiempo a los GBM, es probable que se consiga un mejor rendimiento que con los bosques aleatorios.

Editar. ¿Por qué los GBM superan a los Bosques Aleatorios? La respuesta de Antoine es mucho más rigurosa, ésta es sólo una explicación intuitiva. T $m$ el número de variables en las que se cultivan los árboles. Pero también puede calibrar la tasa de aprendizaje y la profundidad máxima. Al observar más modelos diferentes que con un bosque aleatorio, es más probable que encuentre algo mejor.

1 votos

A loosely performed tuning may lead to dramatic performance? Cuidado con la mala interpretación, porque en inglés dramatic significa muy bueno, excepcional, fenomenal, etc. Supongo que es lo contrario de lo que querías decir... Además, ¿tiene alguna explicación de por qué los GBM cuidadosamente ajustados superan a los RF? Esta es básicamente la pregunta...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X