9 votos

La comprensión de gradiente de impulsar

En un nivel alto, no veo cómo el conjunto de modelos simples obtenidos por gradiente de impulsar es mejor que una sola, la más complicada de modelo? ¿Cuál es el punto de hacer gradiente de aumentar en lugar de una simple más complicado modelo? Dos escenarios específicos a continuación:

  1. En un artículo que leí (Gradiente de impulsar desde cero), es un ejemplo de conjunto de simple árboles (tocones) para la regresión. Entonces, ¿por qué es el enfoque con el gradiente de impulsar mejor que un solo árbol más complejo de la mayor profundidad?

  2. a) En el caso de la regresión lineal, parece que no tiene sentido utilizar el gradiente de impulsar. Puede alguien explicar por qué (o refutar)? Ayudaría a mi comprensión de la regresión y el turbo. Por ejemplo, en lugar de hacer la regresión sobre las características de muchos (tal vez incluso uno en especial, como LAZO), hacer iteraciones sucesivas de una sola característica de las regresiones, grupo de ellas a través de un gradiente de impulsar.

    b) Mismo como 2a, sólo para la regresión logística. Sospecho que aquí puede tener sentido, porque el calculo de la función no es lineal. Pero, ¿por qué aplicar el gradiente de impulsar con regresiones logísticas en lugar de, por ejemplo, la regularización de la regresión logística?

5voto

eldering Puntos 3814

He respondido a la pregunta 2a en este sitio antes.

La respuesta a la 2b, como se sospecha, es el mismo. En general, el gradiente de impulsar, cuando se utiliza para la clasificación, se ajusta a los árboles no en el nivel de la pendiente de probabilidades pronosticadas, pero a la gradiente de la predicción de la log-odds. Debido a esto, 2b reduce a 2a , en principio.

Como para 1:

Aquí hay un ejemplo de conjunto de simple árboles (tocones) para la regresión. Entonces, ¿por qué es el enfoque con el gradiente de impulsar mejor que un solo árbol más complejo de la mayor profundidad?

El poder de la gradiente de impulsar es que nos permite construir funciones predictivas de gran complejidad. El problema con la construcción de funciones predictivas de gran complejidad está en el sesgo de la varianza de equilibrio. Gran complejidad medio muy bajo de sesgo, que por desgracia es miércoles a muy alta varianza.

Si se ajustan a un modelo complejo en una sola vez (como un profundo árbol de decisión, por ejemplo) que no han hecho nada para lidiar con esta variación de la explosión, y usted encontrará que su error de la prueba es muy pobre.

Impulsar es esencialmente una forma de principios de un control cuidadoso de la varianza de un modelo a la hora de intentar construir un complejo de predicción de la función. La idea principal es que debemos construir el predictivo función muy lentamente, y verificar constantemente nuestro trabajo para ver si debemos dejar de construir. Esta es la razón por la utilización de una pequeña tasa de aprendizaje y débiles de los estudiantes es tan importante el uso de impulsar de manera efectiva. Estas opciones nos permiten capa de complejidad muy lentamente, y aplicar una gran cantidad de atención a la construcción predictivo de la función. Permite muchos lugares para parar, mediante la monitorización del error de la prueba en cada etapa de la construcción.

Si no haces esto, tu impulsado el modelo va a ser pobre, a menudo tan pobre como un único árbol de decisión. Pruebe a ajustar el ritmo de aprendizaje a $1.0$ en un gradiente impulsado el modelo, o el uso de muy profundo árboles individuales de los alumnos.

1voto

David Puntos 41

Me gustaría dar varias referencias a responder a su pregunta.

  1. Yo diría que dependiendo de los datos, impulsado tocones no son necesarios mejor que la profundidad de los árboles. Ellos son diferentes. Una visualización de la diferencia se puede encontrar aquí

¿Cómo lineal de la base alumno trabaja en el impulso? Y cómo funciona en la xgboost de la biblioteca?

Hacer todos los algoritmos de aprendizaje automático de datos separados linealmente?

  1. para los debates en impulsar con el modelo lineal, mi primer enlace da respuesta. Además, @Mateo Drury tenía una buena respuesta aquí.

Gradiente de Impulso para la Regresión Lineal - ¿por qué no funciona?

0voto

shazanj Puntos 1

Para complementar las respuestas anteriores, me gustaría dar mi opinión puramente desde un punto de vista intuitivo. "No hay Almuerzo Gratis (NFL)" teorema establece que ningún algoritmo es mejor que otro, sobre el promedio a través de todos los datos posibles distribuciones. Sin embargo, dado que en el mundo real de los conjuntos de datos están limitados a pocas distribuciones específicas, algunos modelos pueden ajustarse bien para mostrar un alto rendimiento en escenarios del mundo real.

Gradiente de impulsar proporciona un conjunto de débil estudiantes. Si asumimos que el conjunto de datos se modela mejor el uso de una mezcla de distribuciones, cada uno de estos débil de los estudiantes podría ser el aprendizaje sólo para llevar a cabo bien en algunas distribuciones. Por lo tanto, cuando se toma el promedio de todos los débiles de los estudiantes, tiene un muy alto rendimiento en general a través de todo el conjunto de datos en contraste con una gran overfitted único modelo que puede funcionar bien sólo en muy pocas distribuciones o parte del conjunto de datos (también conocido como la Sabiduría de la Multitud).

En resumen, el modelo único intento de generalizar y perder el poder de predicción, mientras que varios modelos de especializarse y mejorar mediante el consenso. Esto es puramente mi opinión, o la tomas o lo dejas :)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X