3 votos

Derivación del algoritmo AdaBoost.R2

Tengo dificultades para entender la derivación del algoritmo AdaBoost.R2 (AdaBoost para problemas de regresión), tal como se presenta en este documento de Drucker (página 2), que parece ser la fuente que la gente cita al referirse a ella. En particular, la implentación de sklearn (la biblioteca de python) se basa en este documento. Dice que es una modificación del algoritmo AdaBoost.R propuesto por Freund y Schapire aquí (página 136).

Tengo dos preguntas:

  1. ¿Por qué la predicción final de AdaBoost.R2 es la mediana ponderada de todos los aprendices débiles? Esto contrasta con AdaBoost para problemas de clasificación, que toma una media ponderada.
  2. Tengo entendido (a partir de la sección 10.4 del libro Elements of Statistical Learning de Hastie) que AdaBoost para la clasificación puede entenderse como un refuerzo de gradiente (Hastie, algoritmo 10.2) con la función de pérdida exponencial $L=\exp(-y \,f(x))$ , donde $y$ es la clase de destino y $f(x)$ es nuestra predicción. Es un ejercicio sencillo demostrar que el algoritmo AdaBoost.M1 (algoritmo 10.1 en Hastie) se deriva de este enfoque. AdaBoost para la regresión no utiliza la función de pérdida exponencial, pero ¿también puede derivarse de manera similar?

Por último, en general, si hay otras fuentes que repasen las implementaciones de AdaBoost para problemas de regresión (no necesariamente sólo para árboles de regresión), agradecería cualquier enlace.

Gracias.

4voto

aha Puntos 1
  1. La elección de utilizar la mediana ponderada parece ser arbitraria. Según este

    "La idea de utilizar la mediana ponderada como regresor final no es nueva. La idea de utilizar la mediana ponderada como regresor final no es nueva. Freund [6] la menciona brevemente y demuestra un caso especial del teorema principal de este trabajo. El algoritmo ADABOOST.R de Freund y Schapire [7] devuelve la mediana ponderada pero el espacio de respuesta está restringido a [0;1] y los pasos de actualización de los parámetros son bastante complicados. Drucker [4] también utiliza la mediana ponderada de los regresores base como regresor final, pero las actualizaciones de los parámetros son heurísticas y no se analiza la convergencia del método."

    Esa fórmula loca con los logaritmos es evidentemente sólo una forma de resolver la mediana; IBM da una fórmula diferente.

    Es posible que a los investigadores les gustara este método de evaluación porque pensaban que era más robusto al ruido o algo así, pero no estoy seguro de que sus razones estuvieran bien fundadas. El autor del primer artículo parece que sólo le gustan los enfoques basados en la mediana porque generalizan AdaBoost, no porque sean mejores según alguna métrica.

  2. Sí, en el caso de la clasificación es fácil reconocer que el exponencial en $(\gamma_m, G_m) = arg \min_{\gamma,G} \sum_{i=1}^n e^{-y_i(f_{m-1}(x_i) + \gamma G(x_i))}$ puede dividirse para dar $w_i = e^{-y_i f_{m-1}(x_i)}$ (la pérdida exponencial del modelo hasta ahora), que se dispara a medida que y y f(x) divergen, lo que tiene efectos famosos en los casos en que hay datos atípicos o mal etiquetados. Pero en AdaBoost.R los pesos se actualizan según fórmulas complicadas, y en AdaBoost.R2 las actualizaciones vienen dadas por $\beta^{1-L_i} = (\frac{\bar{L}}{1-\bar{L}})^{1-L_i}$ que tiene esta forma funky%5E(1-x)+from+0+to+1) (cualitativamente, ya que $\bar{L}$ y $L_i$ están relacionados pero no son exactamente lo mismo) que en realidad pondera los ejemplos con mayor pérdida como no tan importantes como los que tienen un error ligeramente menor, lo que probablemente ayuda a que más resistente a los valores atípicos. Estas reglas de actualización no se desprenden simplemente de la función de pérdida, sino que se construyen sobre ella. Lo único que debe hacer una función de pérdida es responder a la pregunta "¿A qué distancia estoy?". Lo que se hace una vez que se sabe no tiene por qué estar relacionado con la forma de medir. Puede ser una "heurística". Incluso se podrían diseñar algunas características como la tolerancia al ruido. Estaría bien que Drucker demostrara que su elección es buena, pero lo que importa a la mayoría de la gente es que parece funcionar en la práctica.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X