Breiman dice que los árboles crecen sin podar. ¿Por qué? Quiero decir que debe haber una razón sólida por la que los árboles del bosque no se podan. Por otra parte, se considera muy importante podar un árbol de decisión única para evitar que se sobrepase. ¿Hay alguna literatura disponible para leer por esta razón? Por supuesto, los árboles pueden no estar correlacionados, pero aún así habrá una posibilidad de sobreajuste.
Respuesta
¿Demasiados anuncios?En términos generales, parte de la sobrecarga potencial que podría ocurrir en un solo árbol (que es una razón por la que se hace la poda en general) se ve mitigada por dos cosas en un Bosque al azar:
- El hecho de que las muestras utilizadas para entrenar a los árboles individuales son "bootstrap".
- El hecho de tener una multitud de árboles al azar usando características aleatorias y por lo tanto los árboles individuales son fuertes pero no tan correlacionados entre sí.
Editar: basado en el comentario de OP a continuación:
Definitivamente todavía hay potencial para el sobreajuste. En cuanto a los artículos, puedes leer acerca de la motivación para "embolsar" por Breiman y "bootstrapping" en general por Efron y Tibshirani. En cuanto al 2., Brieman derivó un error de generalización que está relacionado con la fuerza del árbol y la anti-correlación de los clasificadores individuales. Nadie utiliza el límite (lo más probable) pero está destinado a dar una intuición sobre lo que ayuda a reducir el error de generalización en los métodos de conjunto. Esto está en el propio documento de Random Forests. Mi post fue para empujarte en la dirección correcta basado en estas lecturas y mi experiencia/deducciones.
- Breiman, L., Bagging Predictors, Machine Learning, 24(2), págs. 123-140, 1996.
- Efron, B.; Tibshirani, R. (1993). An Introduction to the Bootstrap. Boca Raton, FL
- Breiman, Leo (2001). "Random Forests". Machine Learning 45 (1): 5-32.