Tengo dificultades para entender la derivación del algoritmo AdaBoost.R2 (AdaBoost para problemas de regresión), tal como se presenta en este documento de Drucker (página 2), que parece ser la fuente que la gente cita al referirse a ella. En particular, la implentación de sklearn (la biblioteca de python) se basa en este documento. Dice que es una modificación del algoritmo AdaBoost.R propuesto por Freund y Schapire aquí (página 136).
Tengo dos preguntas:
- ¿Por qué la predicción final de AdaBoost.R2 es la mediana ponderada de todos los aprendices débiles? Esto contrasta con AdaBoost para problemas de clasificación, que toma una media ponderada.
- Tengo entendido (a partir de la sección 10.4 del libro Elements of Statistical Learning de Hastie) que AdaBoost para la clasificación puede entenderse como un refuerzo de gradiente (Hastie, algoritmo 10.2) con la función de pérdida exponencial $L=\exp(-y \,f(x))$ , donde $y$ es la clase de destino y $f(x)$ es nuestra predicción. Es un ejercicio sencillo demostrar que el algoritmo AdaBoost.M1 (algoritmo 10.1 en Hastie) se deriva de este enfoque. AdaBoost para la regresión no utiliza la función de pérdida exponencial, pero ¿también puede derivarse de manera similar?
Por último, en general, si hay otras fuentes que repasen las implementaciones de AdaBoost para problemas de regresión (no necesariamente sólo para árboles de regresión), agradecería cualquier enlace.
Gracias.