Voy a definir primero el algoritmo GBM para aclarar la cuestión:
Algoritmo 10.3: Algoritmo de refuerzo del árbol de gradiente de Hastie Los elementos del aprendizaje estadístico afirma lo siguiente:
Donde $N$ es el número de muestras, $M$ es el número de iteraciones y $J_m$ es el número de regiones terminales o el tamaño del árbol. La línea 3 produce $\hat{f}(x)$ que es un $K$ vector de tamaño donde $K$ corresponde al número de clases.
¿Cómo se transforma el residuo antes de ser ajustado por un árbol? ¿Log del residuo?
El residuo se define arriba por (a) y depende directamente de la función de pérdida. Al igual que en otros problemas, la función de pérdida depende de la distribución elegida para modelar la probabilidad condicional de y|x y es análoga a la log-verosimilitud negativa de la distribución. Para una distribución de Poisson la log-verosimilitud es:
$$ll(y;\lambda) = \sum_k y_k\log(\lambda_k) - \lambda_k - \log(x_k!)$$
O la pérdida:
$$L(y;\lambda) = \sum_k \lambda_k + \log(x_k!) - y_k\log(\lambda_k) $$
Como queremos minimizar la pérdida y eventualmente tomaremos una derivada, podemos eliminar el término constante $\log(x_k!)$ y lo anterior se simplifica a:
$$L(y;\lambda) = \sum_k \lambda_k - y_k\log(\lambda_k) $$
En el algoritmo descrito anteriormente, el residuo es equivalente a la derivada parcial con respecto a $f(x_i)$ evaluado en $f_{m-1}$ . Esto puede interpretarse como el residuo producido por nuestra anterior actualización de $f$ .
¿Es necesario aplicar una transformación al final para obtener la predicción? Ejemplo : predicción = exp(media de Y + predicción del primer árbol + predicción del segundo árbol + )
Para producir probabilidades se utiliza la siguiente transformación:
$$p_k(x) = \frac{\exp{f_k(x)}}{\sum_{l=1}^K \exp{f_l(x)}}$$ donde de nuevo, $k$ es la clase de interés. Para hacer una predicción simplemente tomamos el $k$ que produce el máximo $p$ .