7 votos

¿Cómo funciona el GBM con una función de pérdida de Poisson?

Estoy familiarizado con la regresión de Poisson y con el concepto de GBM (un árbol que aprende a partir del residuo del árbol anterior) pero no entiendo cómo funciona GBM en el caso de una función de pérdida de Poisson.

Preguntas:

  • ¿Cómo se transforma el residuo antes de ser ajustado por un árbol? ¿Log del residuo?
  • ¿Es necesario aplicar una transformación al final para obtener la predicción? Ejemplo : predicción = exp (media de Y + predicción del primer árbol + predicción del segundo árbol + )

7voto

frans Puntos 108

Voy a definir primero el algoritmo GBM para aclarar la cuestión:

Algoritmo 10.3: Algoritmo de refuerzo del árbol de gradiente de Hastie Los elementos del aprendizaje estadístico afirma lo siguiente:

enter image description here

Donde $N$ es el número de muestras, $M$ es el número de iteraciones y $J_m$ es el número de regiones terminales o el tamaño del árbol. La línea 3 produce $\hat{f}(x)$ que es un $K$ vector de tamaño donde $K$ corresponde al número de clases.

¿Cómo se transforma el residuo antes de ser ajustado por un árbol? ¿Log del residuo?

El residuo se define arriba por (a) y depende directamente de la función de pérdida. Al igual que en otros problemas, la función de pérdida depende de la distribución elegida para modelar la probabilidad condicional de y|x y es análoga a la log-verosimilitud negativa de la distribución. Para una distribución de Poisson la log-verosimilitud es:

$$ll(y;\lambda) = \sum_k y_k\log(\lambda_k) - \lambda_k - \log(x_k!)$$

O la pérdida:

$$L(y;\lambda) = \sum_k \lambda_k + \log(x_k!) - y_k\log(\lambda_k) $$

Como queremos minimizar la pérdida y eventualmente tomaremos una derivada, podemos eliminar el término constante $\log(x_k!)$ y lo anterior se simplifica a:

$$L(y;\lambda) = \sum_k \lambda_k - y_k\log(\lambda_k) $$

En el algoritmo descrito anteriormente, el residuo es equivalente a la derivada parcial con respecto a $f(x_i)$ evaluado en $f_{m-1}$ . Esto puede interpretarse como el residuo producido por nuestra anterior actualización de $f$ .

¿Es necesario aplicar una transformación al final para obtener la predicción? Ejemplo : predicción = exp(media de Y + predicción del primer árbol + predicción del segundo árbol + )

Para producir probabilidades se utiliza la siguiente transformación:

$$p_k(x) = \frac{\exp{f_k(x)}}{\sum_{l=1}^K \exp{f_l(x)}}$$ donde de nuevo, $k$ es la clase de interés. Para hacer una predicción simplemente tomamos el $k$ que produce el máximo $p$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X