Cuáles son las garantías teóricas del embolsamiento

Question

Cuáles son las garantías teóricas del embolsamiento

Preguntado el 10 de Marzo, 2015: Cuando se hizo la pregunta
683 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Lo he oído (aproximadamente):

El bagging es una técnica para reducir la varianza de un algoritmo de predicción/estimación/aprendizaje.

Sin embargo, nunca he visto una prueba matemática formal de esta afirmación. ¿Alguien sabe por qué esto es matemáticamente cierto? Es que parece ser un hecho tan ampliamente aceptado/conocido, que esperaría una referencia directa a esto. Me sorprendería que no la hubiera. Además, ¿alguien sabe qué efecto tiene esto en el sesgo?

¿Hay alguna otra garantía teórica de aproximación a la bolsa que alguien conozca y considere importante y quiera compartirla?

Preguntado el 10 de Marzo, 2015 por Shreyans

Answer 1

1 Respuestas

Answer 2

24voto

Marc Claesen Puntos 9818

El principal caso de uso del bagging es la reducción de la varianza de los modelos poco sesgados agrupándolos. Esto se estudió empíricamente en el histórico artículo " Una comparación empírica de los algoritmos de clasificación de votos de votos: Bagging, Boosting y Variantes "de Bauer y Kohavi . Suele funcionar como se anuncia.

Sin embargo, en contra de la creencia popular, no se garantiza que el embolsamiento reduzca la varianza . Una explicación más reciente y (en mi opinión) mejor es que el embolsamiento reduce la influencia de los puntos de apalancamiento. Los puntos de apalancamiento son aquellos que afectan de forma desproporcionada al modelo resultante, como los valores atípicos en la regresión por mínimos cuadrados. Es raro, pero posible, que los puntos de apalancamiento influyan positivamente en los modelos resultantes, en cuyo caso el embolsamiento reduce el rendimiento. Eche un vistazo a " El embolsado iguala la influencia " por Grandvalet .

Así que, para responder finalmente a su pregunta: el efecto del embolsado depende en gran medida de los puntos de apalancamiento. Existen pocas garantías teóricas, salvo que el ensacado aumenta linealmente el tiempo de cálculo en función del tamaño de la bolsa. Dicho esto, sigue siendo una técnica muy utilizada y muy potente. Por ejemplo, cuando se aprende con ruido de etiquetas, El ensacado puede producir clasificadores más robustos .

Rao y Tibshirani han dado una interpretación bayesiana en " El método out-of-bootstrap para el promedio y la selección de modelos " :

En este sentido, la distribución bootstrap representa una distribución posterior (aproximada) no paramétrica y no informativa para nuestro parámetro. Pero esta distribución bootstrap se obtiene de forma indolora, sin tener que especificar formalmente especificar una prioridad y sin tener que muestrear la distribución posterior. Por lo tanto, podríamos considerar la distribución bootstrap como la distribución Bayes posterior.

Respondido el 10 de Marzo, 2015 por Marc Claesen (9818 Puntos )

1 votos

¿Cómo se aplica la explicación de los "puntos de apalancamiento" a los árboles, que a menudo se recomiendan para el embolsado? Mientras que está claro cuáles son los puntos de apalancamiento altos para la regresión lineal, ¿cuáles son estos puntos para los árboles?

Comentado el 17 de Marzo, 2015 por Peter

0 votos

Ha encontrado otra referencia a esta cuestión: quora.com/ ¿Qué opinas? ¿Contradice esto el hecho de que hayas dicho que no reduce la varianza teóricamente?

Comentado el 21 de Marzo, 2015 por Shreyans

0 votos

He visto que la wikipedia dice que el bagging (también conocido como agregación bootstrap) disminuye la varianza. Si no hay evidencia teórica de esto, ¿significa que el artículo está equivocado?

Comentado el 16 de Febrero, 2016 por Shreyans

Mostrar 1 comentarios más

Cuáles son las garantías teóricas del embolsamiento

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Cuáles son las garantías teóricas del embolsamiento

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: