¿Hay una base teórica para la contracción en árboles de regresión impulsado?

Question

¿Hay una base teórica para la contracción en árboles de regresión impulsado?

Preguntado el 5 de Marzo, 2013: Cuando se hizo la pregunta
492 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

En Gradiente Impulsado los Árboles de Regresión, un encogimiento $\nu$ se aplica a menudo como: $f_t(x) \leftarrow f_{t-1}(x) + \nu h(x)$ donde $h$ es el árbol de regresión aprendido mediante el ajuste de los árboles para el gradiente. He probado la aplicación de este y se encontró que esta contracción es de hecho necesaria para evitar el sobreajuste. La contracción necesaria puede variar según la aplicación, pero me pareció que algo mayor que $\nu=0.01$ led para el sobreajuste.

Hay una justificación teórica para este tipo de contracción? Hay más teóricamente sonido modos de regularizar GBRTs?

Preguntado el 5 de Marzo, 2013 por Andrew Coleson

Answer 1

2 Respuestas

Answer 2

5voto

Jafin Puntos 1401

Hay siempre una base teórica para cualquier tipo de parámetro de regularización? Generalmente, los veo introducido como conveniente de los priores.

Además de a $\nu$ , hay un montón de maneras para regularizar gradiente impulsado árboles.

Árbol de profundidad,
Tamaño mínimo de la muestra para la división de los árboles,
Tamaño mínimo de la muestra para las hojas de los árboles,
Número de árboles,
Al azar la elección de pequeños subconjuntos de características para los diferentes árboles.

Estoy seguro de que me olvidé de algunos. Un buen resumen se hace en esta charla acerca de Gradiente Impulsado Árboles de Regresión (GBRT).

Respondido el 6 de Junio, 2014 por Jafin (1401 Puntos )

Answer 3

5voto

ebricca Puntos 31

Sí, hay una base teórica para la contracción $\nu$ . No es sólo un parámetro de regularización.

Recuerde que el Gradiente de Impulsar es equivalente a la estimación de los parámetros de un modelo aditivo mediante la minimización de una diferenciable función de pérdida (exponencial de la pérdida en caso de Adaboost, multinomial de la desviación de clasificación, etc.) el uso de Gradiente de la pendiente (véase Friedman et al. 2000).

Por lo $\nu$ controla la velocidad a la que la función de pérdida se reduce al mínimo. Los valores más pequeños de $\nu$ resultado en una mayor precisión ya que con pequeños pasos, la optimización es más preciso (sin embargo, toma más tiempo debido a que más pasos son necesarios).

Con $\nu$ tenemos control sobre la velocidad a la que el impulsar algoritmo desciende la superficie de error (o sube la probabilidad de la superficie).

El rendimiento es mejor cuando se $\nu$ es tan pequeño como sea posible con la disminución de la utilidad marginal para los más pequeños, $\nu$ .

(Ambas citas son de Ridgeway 2007)

Respondido el 25 de Agosto, 2015 por ebricca (31 Puntos )

¿Hay una base teórica para la contracción en árboles de regresión impulsado?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Hay una base teórica para la contracción en árboles de regresión impulsado?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: