59 votos

Aumento gradiente para regresión lineal - ¿por qué no funciona?

Mientras que el aprendizaje acerca de Gradiente de Impulsar, no he oído hablar de ningún tipo de limitaciones en cuanto a las propiedades de un "clasificador débil" que el método que se utiliza para construir y el conjunto del modelo. Sin embargo, yo no podía imaginar una aplicación de un GB que utiliza la regresión lineal, y de hecho, cuando he realizado algunas pruebas de que no funciona. Estuve probando el estándar de la mayoría de enfoque con un gradiente de la suma de los cuadrados de los residuos y la adición de los posteriores modelos juntos.

El problema evidente es que los residuos desde el primer modelo se rellenan de tal manera que no hay realmente ninguna línea de regresión para que quepa más. Mi otra observación es que una suma de posteriores modelos de regresión lineal se puede representar como un único modelo de regresión (la adición de todas las intersecciones y los correspondientes coeficientes) así que no puedo imaginar lo que nunca podría mejorar el modelo. La última observación es que una regresión lineal (el más típico de enfoque) es mediante la suma de los cuadrados de los residuos como una función de pérdida - el mismo que GB es de usar.

También pensé en la reducción de la tasa de aprendizaje o el uso de sólo un subconjunto de indicadores para cada iteración, pero que aún podría resumirse a un único modelo de representación eventual, así que supongo que esto traería ninguna mejora.

Lo que me estoy perdiendo aquí? Es la regresión lineal de alguna manera inapropiada para su uso con Gradiente de Impulsar? Es a causa de la regresión lineal se utiliza la suma de los cuadrados de los residuos como una función de pérdida? ¿Existen restricciones particulares a la débil predictores de modo que se puede aplicar al Gradiente de Impulsar?

51voto

eldering Puntos 3814

Lo que me estoy perdiendo aquí?

No creo que realmente te estás perdiendo de nada!

Otra observación es que una suma de posteriores modelos de regresión lineal se puede representar como un único modelo de regresión (la adición de todas las intersecciones y los correspondientes coeficientes) así que no puedo imaginar lo que nunca podría mejorar el modelo. La última observación es que una regresión lineal (el más típico de enfoque) es mediante la suma de los cuadrados de los residuos como una función de pérdida - el mismo que GB es de usar.

A mí me parece que lo habéis clavado allí, y dio un breve bosquejo de una prueba de que la regresión lineal sólo beats impulsar regresiones lineales en esta configuración.

Para ser pedante, ambos métodos están tratando de resolver el siguiente problema de optimización

$$ \hat \beta = \text{argmin}_\beta (y - X \beta)^t (y - X \beta) $$

Regresión lineal sólo se observa que se puede resolver directamente, mediante la búsqueda de la solución a la ecuación lineal

$$ X^t X \beta = X^t y $$

Esto automáticamente le da el mejor valor posible de $\beta$ fuera de todas las posibilidades.

Impulsar, si su débil clasificador es una variable o múltiple de la variable de regresión, le da una secuencia de coeficiente de vectores $\beta_1, \beta_2, \ldots$. El último modelo de predicción es, como se observa, una suma, y tiene la misma forma funcional como el lineal total regresor

$$ \beta_1 X + \beta_2 X + \cdots + \beta_n X = (\beta_1 + \beta_2 + \cdots + \beta_n) X $$

Cada uno de estos pasos es el elegido para disminuir aún más la suma de los cuadrados de los errores. Pero podríamos haber encontrado el mínimo posible de la suma de cuadrados de los errores dentro de esta forma funcional con sólo realizar una completa regresión lineal, para empezar.

Una posible defensa de impulsar en esta situación podría ser el implícito de regularización que proporciona. Posiblemente (no he jugado con este) usted podría utilizar los principios de parar función de un gradiente de refuerzo, junto con una validación cruzada, para detener el corto completo de la regresión lineal. Esto proporcionaría una regularización de su regresión, y posiblemente ayudar con el sobreajuste. Esto no es especialmente práctico, ya que uno tiene muy eficiente y bien entendido opciones, como la cresta de la regresión y de la red elástica en esta configuración.

Impulsar brilla cuando no hay concisa la forma funcional de todo. Impulsar árboles de decisión permite que la forma funcional de la regresor/clasificador evolucionan lentamente para ajustar los datos, resultando a menudo en formas complejas, uno no podría haber soñado con la mano y el ojo. Cuando una simple forma funcional es deseado, el impulso no va a ayudar a encontrar (o al menos es probablemente una de las más ineficientes manera de encontrar).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X