6 votos

AdaBoost: ¿por qué decidir los tocones en lugar de los árboles?

Desde el artículo original de AdaBoost se ha descubierto que el boosting reduce tanto la varianza como el sesgo del clasificador (a diferencia del bagging, que sólo reduce la varianza). El AdaBoost original (y la implementación por defecto de Scikit-learn) utiliza muñones de decisión, es decir, árboles de decisión con profundidad 1.

¿Por qué? ¿Por qué no deberíamos utilizar árboles de decisión completos, o árboles de decisión con alguna poda? La ponderación de muestras funciona para árboles completos, después de todo, y los algoritmos de refuerzo más recientes (por ejemplo, el refuerzo de gradiente en Scikit-learn, XGBoost, LightGBM) hacen crecer árboles profundos. Esto también permitiría potenciar diferentes algoritmos de crecimiento de árboles de esta forma tan sencilla, en lugar de sólo los tocones de decisión.

4voto

lucia de finetti Puntos 30

La razón por la que se utilizan "tocones" en el boosting y árboles de altura completa en los bosques aleatorios tiene que ver con la forma en que se realiza la agregación y el ajuste.

En los bosques aleatorios, los árboles del conjunto se ajustan de forma independiente a muestras bootstrap independientes, por lo que cualquier error causado por el crecimiento excesivo de los árboles es independiente para cada árbol y tiende a anularse en la media del conjunto.

En el boosting, los árboles se ajustan secuencialmente, y cada uno de ellos se entrena sobre (en cierto sentido) los residuos del clasificador anterior. Una vez que un conjunto reforzado empieza a sobreajustarse, seguirá sobreajustándose; los errores no se cancelarán.

Por esta razón, vale la pena que los árboles individuales sean cortos al impulsar y altos al embolsar. No está claro que los "tocones" sean óptimos para el boosting -- hay recomendaciones para que los árboles con, por ejemplo, 6 hojas incluyan mejor las interacciones -- pero eso es una explicación de la idea básica.

1voto

jws121295 Puntos 36

Si se piensa en el CART potenciado por el gradiente (también conocido como un átomo de gbm), el modelo es de "cajas" (1) .

Esto (datos):
enter image description here

Está representado por un (ajuste CART) como este:

enter image description here

Cada punta de hoja es una media. Cada división es perpendicular a un eje. Intenta ajustar los límites de la caja y la altura de la media para minimizar el error de representación.

De lo anterior se desprende la motivación para bosques oblicuos .

Si tienes un árbol más profundo, entonces hay muchas divisiones y medios por nivel de impulso. Sabemos que hay debilidad en un árbol individual, es literalmente un "aprendiz débil". Si tiene un tocón, entonces cada línea se potencia a medida que se hace. La relación entre "boostings" y "split-and-mean" está en su valor extremo superior. Si tienes un árbol profundo, o incluso uno cuya profundidad está limitada por el número de hojas u otras métricas de control, entonces esa relación está posiblemente en su extremo opuesto.

$$ \text {root to leaf ratio} = \frac {\text {number of tree roots}}{\text{mean splits per tree}}$$

Entonces, ¿por qué el muñón? Una maravillosa joven de Microsoft describió el gbm como un tigre-mamá, en el que se obliga al alumno a estudiar una y otra vez. Para un estudiante que es pobre o un contenido que es muy difícil, la tasa de aprendizaje es menor y las iteraciones son mayores. Esto hace que el modelo sea más grande, que se tarde más en entrenar y que se tarde más en ejecutar. Si el alumno es bueno, puede avanzar más rápido por el contenido y puede dar pasos más grandes; del mismo modo, si el contenido es más fácil, es más fácil progresar. En ese caso es posible un árbol más profundo, con una mayor tasa de aprendizaje y con un menor número de conjuntos. Es un archivo más pequeño, con menos parámetros, que se entrena rápidamente y se ejecuta rápidamente.

Todos ellos son elementos del "arte" en los que el profesional debe tomar decisiones utilizando algún diseño limitado de experimentos. La búsqueda exhaustiva en la cuadrícula puede resultar cara (en términos de tiempo y dinero) en este caso.

Me gusta el " filosofía ":

  • RF es un ejemplo de herramienta útil para hacer análisis de datos científicos.
  • Pero los algoritmos más inteligentes no sustituyen a la inteligencia humana y el conocimiento de los datos del problema.
  • Tomar el resultado de los bosques aleatorios no como una verdad absoluta, sino como conjeturas inteligentes generadas por ordenador que pueden ser h como conjeturas inteligentes generadas por ordenador que pueden ser útiles para comprensión del problema.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X