El principal caso de uso del bagging es la reducción de la varianza de los modelos poco sesgados agrupándolos. Esto se estudió empíricamente en el histórico artículo " Una comparación empírica de los algoritmos de clasificación de votos de votos: Bagging, Boosting y Variantes "de Bauer y Kohavi . Suele funcionar como se anuncia.
Sin embargo, en contra de la creencia popular, no se garantiza que el embolsamiento reduzca la varianza . Una explicación más reciente y (en mi opinión) mejor es que el embolsamiento reduce la influencia de los puntos de apalancamiento. Los puntos de apalancamiento son aquellos que afectan de forma desproporcionada al modelo resultante, como los valores atípicos en la regresión por mínimos cuadrados. Es raro, pero posible, que los puntos de apalancamiento influyan positivamente en los modelos resultantes, en cuyo caso el embolsamiento reduce el rendimiento. Eche un vistazo a " El embolsado iguala la influencia " por Grandvalet .
Así que, para responder finalmente a su pregunta: el efecto del embolsado depende en gran medida de los puntos de apalancamiento. Existen pocas garantías teóricas, salvo que el ensacado aumenta linealmente el tiempo de cálculo en función del tamaño de la bolsa. Dicho esto, sigue siendo una técnica muy utilizada y muy potente. Por ejemplo, cuando se aprende con ruido de etiquetas, El ensacado puede producir clasificadores más robustos .
Rao y Tibshirani han dado una interpretación bayesiana en " El método out-of-bootstrap para el promedio y la selección de modelos " :
En este sentido, la distribución bootstrap representa una distribución posterior (aproximada) no paramétrica y no informativa para nuestro parámetro. Pero esta distribución bootstrap se obtiene de forma indolora, sin tener que especificar formalmente especificar una prioridad y sin tener que muestrear la distribución posterior. Por lo tanto, podríamos considerar la distribución bootstrap como la distribución Bayes posterior.