37 votos

¿Cuál es el lado débil de los árboles de decisión?

Árboles de decisión parece ser un método de aprendizaje automático muy comprensible. Una vez creado, puede ser inspeccionado fácilmente por un humano, lo que supone una gran ventaja en algunas aplicaciones.

¿Cuáles son los puntos débiles prácticos de los árboles de decisión?

40voto

Noam Gal Puntos 155

Aquí hay un par que se me ocurren:

  • Pueden ser extremadamente sensibles a pequeñas perturbaciones en los datos: un ligero cambio puede dar lugar a un árbol drásticamente diferente.
  • Es fácil que se ajusten en exceso. Esto puede negarse con métodos de validación y poda, pero es una zona gris.
  • Pueden tener problemas de predicción fuera de la muestra (esto está relacionado con que no son suaves).

Algunas de ellas están relacionadas con el problema de multicolinealidad Cuando dos variables explican lo mismo, un árbol de decisión elegirá con avidez la mejor, mientras que muchos otros métodos utilizarán ambas. Los métodos de ensamblaje, como los bosques aleatorios, pueden anular esto hasta cierto punto, pero se pierde la facilidad de comprensión.

Sin embargo, el mayor problema, al menos desde mi punto de vista, es la falta de un marco probabilístico de principios. Muchos otros métodos tienen cosas como intervalos de confianza, distribuciones posteriores, etc., que nos dan una idea de lo bueno que es un modelo. Un árbol de decisión es, en última instancia, una heurística ad hoc, que puede ser muy útil (son excelentes para encontrar las fuentes de los errores en el procesamiento de datos), pero existe el peligro de que la gente trate el resultado como "el" modelo correcto (según mi experiencia, esto ocurre mucho en el marketing).

27voto

Senseful Puntos 116

Una desventaja es que se supone que todos los términos interactúan. Es decir, no se pueden tener dos variables explicativas que se comporten de forma independiente. Cada variable en el árbol se ve obligada a interactuar con cada variable más arriba en el árbol. Esto es extremadamente ineficiente si hay variables que no tienen interacciones o son débiles.

0 votos

Sin embargo, me pregunto si esto es una limitación práctica - para una variable que sólo influye débilmente en la clasificación, mi intuición es que el Árbol probablemente no se dividirá en esa variable (es decir, no va a ser un nodo) que a su vez significa que es invisible en cuanto a la clasificación del Árbol de Decisión.

0 votos

Hablo de interacciones débiles, no de efectos débiles en la clasificación. Una interacción es una relación entre dos de las variables predictoras.

3 votos

Esto puede ser ineficiente, pero la estructura de árbol puede manejarlo.

13voto

Sean Hanley Puntos 2428

Hay buenas respuestas aquí, pero me sorprende que no se haya hecho hincapié en una cosa. CART no hace ninguna hipótesis de distribución de los datos, en particular de la variable de respuesta. En cambio, la regresión OLS (para variables de respuesta continuas) y la regresión logística (para ciertas variables de respuesta categóricas), por ejemplo, hacer hacen fuertes suposiciones; concretamente, la regresión OLS asume que la respuesta está distribuida normalmente de forma condicional, y la logística asume que la respuesta es binomial o multinomial.

La ausencia de estos supuestos en la CART es un arma de doble filo. Cuando esas suposiciones no están justificadas, esto da al enfoque una ventaja relativa. Por otro lado, cuando esas suposiciones se mantienen, se puede extraer más información de los datos teniendo en cuenta esos hechos. Es decir, los métodos de regresión estándar pueden ser más informativos que CART cuando los supuestos se cumplen.

12voto

jdelator Puntos 1336

Mi respuesta está dirigida a CART (las implementaciones de C 4.5/C 5) aunque no creo que se limiten a él. Mi conjetura es que esto es lo que el OP tiene en mente - es por lo general lo que alguien quiere decir cuando dicen "Árbol de Decisión".

Limitaciones de los árboles de decisión :


Bajo rendimiento

Por "rendimiento" no me refiero a la resolución, sino a velocidad de ejecución . La razón por la que es deficiente es que hay que "redibujar el árbol" cada vez que se desea actualizar el modelo CART; los datos clasificados por un Árbol ya entrenado, que luego se quieren añadir al Árbol (es decir, utilizar como punto de datos de entrenamiento) requieren que se empiece desde el principio; las instancias de entrenamiento no pueden añadirse de forma incremental, como ocurre con la mayoría de los demás algoritmos de aprendizaje supervisado. Tal vez la mejor manera de expresar esto es que los Árboles de Decisión no pueden ser entrenados en modo online, sino sólo en modo batch. Obviamente, usted no notará esta limitación si no actualiza su clasificador, pero entonces esperaría que viera una caída en la resolución.

Esto es importante porque, por ejemplo, en el caso de los perceptrones multicapa, una vez que se han entrenado, pueden empezar a clasificar los datos; esos datos también pueden utilizarse para "afinar" el clasificador ya entrenado, mientras que en el caso de los árboles de decisión, hay que volver a entrenar con todo el conjunto de datos (los datos originales utilizados en el entrenamiento más las nuevas instancias).


Mala resolución en datos con relaciones complejas entre las variables

Los árboles de decisión clasifican por medio de una evaluación paso a paso de un punto de datos de clase desconocida, un nodo a la vez, empezando por el nodo raíz y terminando con un nodo terminal. Y en cada nodo sólo son posibles dos posibilidades (izquierda-derecha), por lo que hay algunas relaciones variables que los árboles de decisión no pueden aprender.


Prácticamente limitado a la clasificación

Los árboles de decisión funcionan mejor cuando se entrenan para asignar un punto de datos a una clase, preferiblemente una de las pocas clases posibles. No creo que haya tenido nunca éxito utilizando un Árbol de Decisión en modo de regresión (es decir, con resultados continuos, como el precio o los ingresos esperados durante la vida útil). No se trata de una limitación formal o inherente, sino de una limitación práctica. La mayoría de las veces, los Árboles de Decisión se utilizan para la predicción de factores o resultados discretos.


Mala resolución con variables de expectativas continuas

Una vez más, en principio, está bien tener variables independientes como "tiempo de descarga" o "número de días desde la última compra en línea", simplemente cambie su criterio de división a la varianza (normalmente es la Entropía de la Información o la Impureza de Gini para las variables discretas), pero en mi experiencia los Árboles de Decisión rara vez funcionan bien en estos casos. Las excepciones son casos como la "edad del estudiante", que parece continua, pero en la práctica el rango de valores es bastante pequeño (sobre todo si se presentan como números enteros).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X