9 votos

¿Hay una base teórica para la contracción en árboles de regresión impulsado?

En Gradiente Impulsado los Árboles de Regresión, un encogimiento $\nu$ se aplica a menudo como: $$ f_t(x) \leftarrow f_{t-1}(x) + \nu h(x)$$ donde $h$ es el árbol de regresión aprendido mediante el ajuste de los árboles para el gradiente. He probado la aplicación de este y se encontró que esta contracción es de hecho necesaria para evitar el sobreajuste. La contracción necesaria puede variar según la aplicación, pero me pareció que algo mayor que $\nu=0.01$ led para el sobreajuste.

Hay una justificación teórica para este tipo de contracción? Hay más teóricamente sonido modos de regularizar GBRTs?

5voto

Jafin Puntos 1401

Hay siempre una base teórica para cualquier tipo de parámetro de regularización? Generalmente, los veo introducido como conveniente de los priores.

Además de a $\nu$, hay un montón de maneras para regularizar gradiente impulsado árboles.

  1. Árbol de profundidad,
  2. Tamaño mínimo de la muestra para la división de los árboles,
  3. Tamaño mínimo de la muestra para las hojas de los árboles,
  4. Número de árboles,
  5. Al azar la elección de pequeños subconjuntos de características para los diferentes árboles.

Estoy seguro de que me olvidé de algunos. Un buen resumen se hace en esta charla acerca de Gradiente Impulsado Árboles de Regresión (GBRT).

5voto

ebricca Puntos 31

Sí, hay una base teórica para la contracción $\nu$. No es sólo un parámetro de regularización.

Recuerde que el Gradiente de Impulsar es equivalente a la estimación de los parámetros de un modelo aditivo mediante la minimización de una diferenciable función de pérdida (exponencial de la pérdida en caso de Adaboost, multinomial de la desviación de clasificación, etc.) el uso de Gradiente de la pendiente (véase Friedman et al. 2000).

Por lo $\nu$ controla la velocidad a la que la función de pérdida se reduce al mínimo. Los valores más pequeños de $\nu$ resultado en una mayor precisión ya que con pequeños pasos, la optimización es más preciso (sin embargo, toma más tiempo debido a que más pasos son necesarios).

Con $\nu$ tenemos control sobre la velocidad a la que el impulsar algoritmo desciende la superficie de error (o sube la probabilidad de la superficie).

El rendimiento es mejor cuando se $\nu$ es tan pequeño como sea posible con la disminución de la utilidad marginal para los más pequeños,$\nu$.

(Ambas citas son de Ridgeway 2007)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X