25 votos

¿Por qué no se necesita la poda de los árboles del bosque al azar?

Breiman dice que los árboles crecen sin podar. ¿Por qué? Quiero decir que debe haber una razón sólida por la que los árboles del bosque no se podan. Por otra parte, se considera muy importante podar un árbol de decisión única para evitar que se sobrepase. ¿Hay alguna literatura disponible para leer por esta razón? Por supuesto, los árboles pueden no estar correlacionados, pero aún así habrá una posibilidad de sobreajuste.

23voto

Udi Pintar Puntos 11

En términos generales, parte de la sobrecarga potencial que podría ocurrir en un solo árbol (que es una razón por la que se hace la poda en general) se ve mitigada por dos cosas en un Bosque al azar:

  1. El hecho de que las muestras utilizadas para entrenar a los árboles individuales son "bootstrap".
  2. El hecho de tener una multitud de árboles al azar usando características aleatorias y por lo tanto los árboles individuales son fuertes pero no tan correlacionados entre sí.

Editar: basado en el comentario de OP a continuación:

Definitivamente todavía hay potencial para el sobreajuste. En cuanto a los artículos, puedes leer acerca de la motivación para "embolsar" por Breiman y "bootstrapping" en general por Efron y Tibshirani. En cuanto al 2., Brieman derivó un error de generalización que está relacionado con la fuerza del árbol y la anti-correlación de los clasificadores individuales. Nadie utiliza el límite (lo más probable) pero está destinado a dar una intuición sobre lo que ayuda a reducir el error de generalización en los métodos de conjunto. Esto está en el propio documento de Random Forests. Mi post fue para empujarte en la dirección correcta basado en estas lecturas y mi experiencia/deducciones.

  • Breiman, L., Bagging Predictors, Machine Learning, 24(2), págs. 123-140, 1996.
  • Efron, B.; Tibshirani, R. (1993). An Introduction to the Bootstrap. Boca Raton, FL
  • Breiman, Leo (2001). "Random Forests". Machine Learning 45 (1): 5-32.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X