26 votos

Diferencia entre bosques aleatorios y árbol de decisión

Me llevaron a utilizar algunas técnicas de estadística y aprendizaje automático, especialmente el método de bosque aleatorio.

Necesito comprender la diferencia entre los bosques aleatorios y los árboles de decisión y cuáles son las ventajas de los bosques aleatorios en comparación con los árboles de decisión.

44voto

Dario Castañé Puntos 131

Tienes razón en que los dos conceptos son similares. Como se deduce de los nombres "árbol" y "bosque", un bosque aleatorio es esencialmente una colección de árboles de decisión. Un árbol de decisión se construye sobre un conjunto de datos completo, utilizando todas las características/variables de interés, mientras que un bosque aleatorio selecciona aleatoriamente observaciones/filas y características/variables específicas para construir múltiples árboles de decisión y luego promedia los resultados. Después de construir un gran número de árboles con este método, cada árbol "vota" o elige la clase, y la clase que recibe más votos por mayoría simple es la "ganadora" o clase predicha. Hay, por supuesto, algunas diferencias más detalladas, pero ésta es la principal diferencia conceptual.

24voto

asciiphil Puntos 1443

Cuando se utiliza un modelo de árbol de decisión en un conjunto de datos de entrenamiento determinado, la precisión sigue mejorando con más y más divisiones. Es fácil sobreajustar los datos y no se sabe cuándo se ha cruzado la línea a menos que se utilice la validación cruzada (en el conjunto de datos de entrenamiento). La ventaja de un árbol de decisión simple es que el modelo es fácil de interpretar, se sabe qué variable y qué valor de esa variable se utiliza para dividir los datos y predecir el resultado.

Un bosque aleatorio es como una caja negra y funciona como se menciona en la respuesta anterior. Es un bosque que se puede construir y controlar. Puede especificar el número de árboles que desea en su bosque (n_estimadores) y también puede especificar el número máximo de características que se utilizarán en cada árbol. Pero no puede controlar la aleatoriedad, no puede controlar qué característica es parte de qué árbol en el bosque, no puede controlar qué punto de datos es parte de qué árbol. La precisión aumenta a medida que se incrementa el número de árboles, pero llega a ser constante en cierto punto. A diferencia del árbol de decisión, no crea un modelo muy sesgado y reduce la varianza.

Cuándo utilizar el árbol de decisión:

  1. Cuando quieras que tu modelo sea sencillo y explicable
  2. Cuando se quiere un modelo no paramétrico
  3. Cuando no quiere preocuparse por la selección de características o la regularización o preocuparse por la multicolinealidad.
  4. Puede sobreajustar el árbol y construir un modelo si está seguro de de que el conjunto de datos de validación o de prueba va a ser un subconjunto del conjunto de datos de entrenamiento o casi superpuestos en lugar de inesperados.

Cuándo utilizar el bosque aleatorio :

  1. Cuando no se preocupa mucho por interpretar el modelo pero quiere una mayor precisión.
  2. El bosque aleatorio reducirá la parte de la varianza del error en lugar de la parte de sesgo, por lo que en un conjunto de datos de entrenamiento dado el árbol de decisión puede ser más preciso que un bosque aleatorio. Pero en un conjunto de datos de de datos de validación, el bosque aleatorio siempre gana en términos de de precisión.

-1voto

Saikumar Puntos 1

El bosque aleatorio es un tipo de algoritmo de aprendizaje por conjuntos. Esto significa que utiliza múltiples árboles de decisión para hacer predicciones. La ventaja de utilizar un algoritmo de conjunto es que puede reducir la varianza en las predicciones, haciéndolas más precisas. El algoritmo de bosque aleatorio consigue esto promediando las predicciones de los árboles de decisión individuales.

El árbol de decisiones es un tipo de algoritmo de aprendizaje supervisado. Esto significa que necesita un conjunto de datos de entrenamiento para aprender a hacer predicciones. La ventaja de utilizar un algoritmo de aprendizaje supervisado es que puede aprender patrones complejos en los datos. La desventaja de utilizar un algoritmo de aprendizaje supervisado es que tarda más en entrenarse que un algoritmo de aprendizaje no supervisado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X