20 votos

¿Por qué un árbol en bolsa / árbol de bosque aleatorio tiene un sesgo mayor que un árbol de decisión simple?

Si consideramos un árbol de decisión completo (es decir, un árbol de decisión sin podar), tiene una varianza alta y un sesgo bajo.

Bagging y Random Forests utilizan estos modelos de alta varianza y los agregan para reducir la varianza y mejorar así la precisión de la predicción. Tanto Bagging como Random Forests utilizan el muestreo Bootstrap y, como se describe en "Elementos de aprendizaje estadístico", esto aumenta el sesgo en el árbol único.

Además, como el método Random Forest limita las variables permitidas para dividir en cada nodo, el sesgo de un único árbol de bosque aleatorio aumenta aún más.

Por tanto, la precisión de la predicción sólo aumenta si el aumento del sesgo de los árboles individuales en Bagging y Random Forests no "eclipsa" la reducción de la varianza.

Esto me lleva a las dos preguntas siguientes: 1) Sé que con el muestreo bootstrap, tendremos (casi siempre) algunas de las mismas observaciones en la muestra bootstrap. Pero, ¿por qué esto conduce a un aumento en el sesgo de los árboles individuales en Bagging / Random Forests? 2) Además, ¿por qué el límite de variables disponibles para dividir en cada división conduce a un mayor sesgo en los árboles individuales en Random Forests?

15voto

The Doctor Puntos 59

Aceptaré la respuesta sobre 1) de Kunlun, pero para cerrar este caso, daré aquí las conclusiones sobre las dos cuestiones a las que llegué en mi tesis (que fueron ambas aceptadas por mi Supervisor):

1) Más datos producen mejores modelos, y como sólo utilizamos una parte de todos los datos de entrenamiento para entrenar el modelo (bootstrap), se produce un mayor sesgo en cada árbol (Copiado de la respuesta de Kunlun)

2) En el algoritmo Random Forests, limitamos el número de variables para dividir en cada división, es decir, limitamos el número de variables para explicar nuestros datos. Una vez más, se produce un mayor sesgo en cada árbol.

Conclusión: En ambas situaciones se trata de limitar nuestra capacidad para explicar la población: Primero limitamos el número de observaciones y luego limitamos el número de variables sobre las que dividir en cada división. Ambas limitaciones conducen a un mayor sesgo en cada árbol, pero a menudo la reducción de la varianza en el modelo eclipsa el aumento del sesgo en cada árbol, y por lo tanto Bagging y Random Forests tienden a producir un modelo mejor que un solo árbol de decisión.

6voto

Jay Killeen Puntos 101

Según los autores de "Elements of Statistical Learning" (véase la prueba más abajo):

Al igual que en el ensacado, el sesgo de un bosque aleatorio es el mismo que el sesgo de cualquiera de los árboles individuales muestreados.

Tomado de 2008. Elementos de Aprendizaje Estadístico 2ª Ed, Capítulo 9.2.3. Hastie, Tibshirani, Friedman :

enter image description here enter image description here

Tu respuesta, sin embargo, parece tener sentido, y en el gráfico de la derecha de la Fig 15.10 podemos ver que la línea horizontal verde, que es el sesgo al cuadrado de un solo árbol, está muy por debajo del sesgo de un bosque aleatorio. Parece una contradicción que todavía no he resuelto.

EDITAR:

Lo anterior se aclara justo debajo de la prueba (misma fuente): un árbol en el bosque aleatorio tiene el mismo sesgo que un bosque aleatorio, donde el árbol único está restringido por bootstrap y no# de regresores seleccionados aleatoriamente en cada división (m). Un árbol completamente desarrollado y sin podar fuera de Por otro lado, el bosque aleatorio (sin bootstrap y restringido por m) tiene un sesgo menor. Por lo tanto, los bosques aleatorios y el ensacado mejoran únicamente mediante la reducción de la varianza, no del sesgo.

Cita: enter image description here

3voto

KimJongJack Puntos 1

Sus preguntas son bastante sencillas. 1) Más datos producen un modelo mejor, ya que sólo se utiliza una parte de todos los datos de entrenamiento para entrenar el modelo (bootstrap), por lo que un sesgo mayor es razonable. 2) Más divisiones significa árboles más profundos, o nodos más puros. Esto suele dar lugar a una varianza alta y un sesgo bajo. Si limita la división, menor varianza y mayor sesgo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X