9 votos

¿Puedo combinar muchos árboles para aumentar el gradiente utilizando la técnica de embolsado?

Basado en el Gradiente de Impulsar el Árbol vs Random Forest . GBDT de RF, y el uso de diferentes estrategias para abordar el sesgo y la varianza.

Mi pregunta es que puedo volver a muestrear conjunto de datos (con reemplazo) para entrenar a varios GBDT y combinar sus predicciones como el resultado final?

Es equivalente a construir bosque aleatorio usando GBDT como la base alumno

La idea es que, GBDT puede overfit conjunto de datos (similar a totalmente crecer el árbol de decisión, bajo sesgo de la varianza alta). Espero que el uso de embolsado técnica también puede reducir este problema y el deseo de obtener un mejor rendimiento.

Alguna sugerencia?

4voto

bheklilr Puntos 113

Sí, se puede. Embolsado como una técnica no depende de un único de clasificación o regresión de el árbol de la base alumno; puedes hacerlo con cualquier cosa, aunque muchas de base de los alumnos (por ejemplo, la regresión lineal) son de menor valor que los demás. El bootstrap de la agregación de artículo en la Wikipedia contiene un ejemplo de ensacado de LOESS suavizadores de datos de ozono.

Si desea hacerlo, sin embargo, es casi seguro que no desea utilizar los mismos parámetros totalmente sintonizado solo GBM. Una gran parte del punto de ajuste de un GBM es para evitar el sobreajuste; embolsado reduce el sobreajuste a través de un mecanismo diferente, por lo que si su sintonía GBM no overfit mucho, embolsado probablemente no ayuda mucho - y, ya que es probable que usted necesite cientos de árboles a la bolsa de manera efectiva, su tiempo de ejecución va a subir por un factor de varios cientos de así. Así que ahora usted tiene dos problemas: cómo afinar tu GBM dado que está incrustado en un bosque al azar (aunque probablemente no es tan importante hacer las cosas bien, dado que está incrustado en un bosque al azar,) y el tiempo de ejecución de problema.

Después de haber escrito todo eso, es cierto que el embolsado de tipo de pensamiento puede ser provechosamente integrado con GBM, aunque de una manera diferente. H20, por ejemplo, ofrece la opción de cada uno de los árboles del GBM secuencia de árbol desarrollado sobre una muestra aleatoria de los datos de entrenamiento. Este muestreo se hace sin reemplazo, como el muestreo con reemplazo se cree que causa la resultante de árbol para overfit las partes de la muestra que se repite. Este enfoque fue explícitamente motivado por Breiman "adaptación de embolsado" procedimiento, véase Friedman, de 1999, de Gradiente Estocástico Impulsar el papel de los detalles.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X