Siempre me he adherido a la opinión popular de que disminuir la tasa de aprendizaje en un modelo de árbol con gradiente reforzado (gbm) no perjudica el rendimiento del modelo fuera de la muestra. Hoy, no estoy tan seguro.
Estoy ajustando modelos (minimizando la suma de errores al cuadrado) a la conjunto de datos de vivienda de boston . A continuación, se muestra un gráfico del error en función del número de árboles en un conjunto de datos de prueba con un 20% de retención
Es difícil ver lo que sucede al final, así que aquí hay una versión ampliada en los extremos
Parece que en este ejemplo, la tasa de aprendizaje de $0.01$ es el mejor, con los índices de aprendizaje más pequeños realizando peor en los datos de retención.
¿Cuál es la mejor manera de explicarlo?
¿Es esto un artefacto del pequeño tamaño del conjunto de datos de Boston? Estoy mucho más familiarizado con situaciones en las que tengo cientos de miles o millones de puntos de datos.
¿Debería empezar a ajustar la tasa de aprendizaje con una búsqueda de cuadrícula (o algún otro meta-algoritmo)?