La implementación de GBM del paquete h2o sólo permite al usuario especificar una función de pérdida a través de la opción distribution
que por defecto es multinomial
para las variables de respuesta categóricas y gaussian
para las variables de respuesta numérica. Según la documentación, las funciones de pérdida están implícitas en las distribuciones. Pero necesito saber qué funciones de pérdida se utilizan, y no puedo encontrarlo en ninguna parte de la documentación. Supongo que es el MSE para la gaussiana y la entropía cruzada para la multinomial - ¿alguien sabe si estoy en lo cierto?
Respuesta
¿Demasiados anuncios?
publicinformation
Puntos
11
GBM lo más probable es que selecciona la distribución en función del tipo de problema (regresión o clasificación) y en función de la característica objetivo:
For Classification problems:
Bernoulli and Quasibinomial distributions are used for binary outcomes.
A Multinomial distribution can handle multiple discrete outcomes.
For Regression problems:
A Gaussian distribution is the function for continuous targets.
A Poisson distribution is used for estimating counts.
A Gamma distribution is used for estimating total values (such as claim payouts, rainfall, etc.).
A Tweedie distribution is used for estimating densities.
A Laplacian loss function (absolute L1-loss function) can predict the median percentile.
A Quantile regression loss function can predict a specified percentile.
A Huber loss function, a combination of squared error and absolute error, is more robust to outliers than L2 squared-loss function.