Para poner la respuesta de @ziggystar en términos de la jerga del aprendizaje automático: la idea detrás de las técnicas de agregación bootstrap (por ejemplo, los bosques aleatorios) es ajustar muchos modelos de bajo sesgo y alta varianza a datos con algún elemento de "aleatoriedad" o "inestabilidad". En el caso de los bosques aleatorios, la inestabilidad se añade mediante bootstrapping y eligiendo un conjunto aleatorio de características para dividir cada nodo del árbol. El promedio de estos árboles ruidosos, pero de bajo sesgo, alivia la alta varianza de cualquier árbol individual.
Mientras que los árboles de regresión/clasificación son modelos de "bajo sesgo, alta varianza", los modelos de regresión lineal suelen ser lo contrario: "alto sesgo, baja varianza". Por lo tanto, el problema al que uno se enfrenta a menudo con los modelos lineales es la reducción del sesgo, no la reducción de la varianza. La agregación de Bootstrap simplemente no está hecha para hacer esto.
Un problema adicional es que el bootstrap puede no proporcionar suficiente "aleatoriedad" o "inestabilidad" en un modelo lineal típico. Yo esperaría que un árbol de regresión fuera más sensible a la aleatoriedad de las muestras bootstrap, ya que cada hoja normalmente sólo contiene un puñado de puntos de datos. Además, los árboles de regresión pueden crecer estocásticamente dividiendo el árbol en un subconjunto aleatorio de variables en cada nodo. Véase esta pregunta anterior para saber por qué esto es importante: ¿Por qué se dividen los bosques aleatorios en función de m características aleatorias?
Dicho esto, se puede utilizar bootstrapping en modelos lineales. [LINK] y esto puede ser muy útil en determinados contextos. Sin embargo, la motivación es muy diferente a la de las técnicas de agregación bootstrap.
0 votos
Cuando se agregan árboles por bootstrap, la función de regresión global se vuelve cada vez más compleja con cada árbol que se añade. Por otro lado, cuando se hace bootstrap agregando funciones lineales de la forma
a_0 + a_1 * x_1 + ... + a_d * x_d
la función lineal promediada resultante (tras la agregación bootstrap) sigue teniendo la misma forma funcional lineal que aquella con la que se empieza (es decir, el "aprendiz base").1 votos
@Andre Holzner - lo que dices es cierto, pero, pero, pero... hacer este forraje aleatorio es en realidad una forma de regularización, de una clase similar a las crestas. Te voy a contar un secreto, un árbol de regresión es en realidad un modelo lineal - clase similar a splines. poniendo mi sombrero bayesiano en, el regularizador forrest aleatoria probablemente correspondería aproximadamente a los "pico y losa" priors utilizados en el contexto bayesiano.
0 votos
@probabilityislogic, ¿puedes explicarlo?
0 votos
Se puede pensar en los árboles como el modelo lineal $ y=Z_t\theta_t+e $ . $Z_t$ es una matriz de diseño que indica a qué nodo terminal pertenece cada observación para el árbol $ t $ y $\theta_t $ es el vector correspondiente de predicciones de los nodos terminales. Cualquier árbol puede describirse de este modo: elegir un árbol equivale a la selección de un modelo lineal estándar en el espacio de $ Z_t $ - de los cuales hay $2^n $ posibles "nodo terminal" cconfiguraciones creo (donde $ n $ es el tamaño de la muestra de entrenamiento).