Cuando se utiliza un modelo de árbol de decisión en un conjunto de datos de entrenamiento determinado, la precisión sigue mejorando con más y más divisiones. Es fácil sobreajustar los datos y no se sabe cuándo se ha cruzado la línea a menos que se utilice la validación cruzada (en el conjunto de datos de entrenamiento). La ventaja de un árbol de decisión simple es que el modelo es fácil de interpretar, se sabe qué variable y qué valor de esa variable se utiliza para dividir los datos y predecir el resultado.
Un bosque aleatorio es como una caja negra y funciona como se menciona en la respuesta anterior. Es un bosque que se puede construir y controlar. Puede especificar el número de árboles que desea en su bosque (n_estimadores) y también puede especificar el número máximo de características que se utilizarán en cada árbol. Pero no puede controlar la aleatoriedad, no puede controlar qué característica es parte de qué árbol en el bosque, no puede controlar qué punto de datos es parte de qué árbol. La precisión aumenta a medida que se incrementa el número de árboles, pero llega a ser constante en cierto punto. A diferencia del árbol de decisión, no crea un modelo muy sesgado y reduce la varianza.
Cuándo utilizar el árbol de decisión:
- Cuando quieras que tu modelo sea sencillo y explicable
- Cuando se quiere un modelo no paramétrico
- Cuando no quiere preocuparse por la selección de características o la regularización o preocuparse por la multicolinealidad.
- Puede sobreajustar el árbol y construir un modelo si está seguro de de que el conjunto de datos de validación o de prueba va a ser un subconjunto del conjunto de datos de entrenamiento o casi superpuestos en lugar de inesperados.
Cuándo utilizar el bosque aleatorio :
- Cuando no se preocupa mucho por interpretar el modelo pero quiere una mayor precisión.
- El bosque aleatorio reducirá la parte de la varianza del error en lugar de la parte de sesgo, por lo que en un conjunto de datos de entrenamiento dado el árbol de decisión puede ser más preciso que un bosque aleatorio. Pero en un conjunto de datos de de datos de validación, el bosque aleatorio siempre gana en términos de de precisión.