A continuación se explica por qué Boosting suele superar a Random Forest en la práctica, pero me interesaría mucho saber qué otros factores diferentes pueden explicar la ventaja de Boosting sobre RF en escenarios específicos.
Básicamente, dentro del $error=bias+variance$ la RF sólo puede reducir el error mediante la reducción de la varianza ( Hastie et al. 2009 p. 588). El sesgo es fijo e igual al sesgo de un solo árbol en el bosque (de ahí la necesidad de cultivar árboles muy grandes, que tienen un sesgo muy bajo).
Por otro lado, el Boosting reduce el sesgo (al añadir cada nuevo árbol en la secuencia de manera que se captura lo que se perdió por el árbol anterior), pero también varianza (mediante la combinación de muchos modelos).
Por lo tanto, el refuerzo reduce el error en ambos frentes, mientras que la RF sólo puede reducir el error mediante la reducción de la varianza. Por supuesto, como he dicho, puede haber otras explicaciones para el mejor rendimiento de Boosting observado en la práctica. Por ejemplo, en la página 591 del libro mencionado, se dice que Boosting supera a RF en el problema de la esfera anidada porque en ese caso particular el el verdadero límite de decisión es aditivo . ( ) También informan de que Boosting lo hace mejor que RF para el spam y los datos de vivienda de California.
Otra referencia que ha encontrado que el Boosting supera a la RF es Caruana y Niculescu-Mizil 2006 . Desgraciadamente, informan de los resultados pero no intentan explicar las causas. Compararon los dos clasificadores (y muchos más) en 11 problemas de clasificación binaria para 8 métricas de rendimiento diferentes.
6 votos
No hay manera de saberlo a priori; hay que probarlo.
0 votos
Bueno, en la práctica, el Boosting casi siempre supera al RF... Aunque no sé exactamente por qué, personalmente no he encontrado ningún caso en el que la RF haya superado al Boosting.
0 votos
@Antoine aprender con datos no etiquetados y/o con ruido de etiqueta es un caso de uso particularmente terrible para el boosting.
0 votos
Pues bien, la RF y el Boosting se utilizan principalmente para tareas de aprendizaje supervisado, aunque a veces es cierto que la RF puede utilizarse para el clustering. Adaboost no es muy robusto al etiquetado erróneo debido a la función de pérdida exponencial, que está muy influenciada por el ruido, pero Stochastic Gradient Boosting en el caso general (con desviación multinomial, por ejemplo) es más robusto.
0 votos
@MarcClaesen podría echar un vistazo a esto pregunta ¿Por favor?