Mi respuesta está dirigida a CART (las implementaciones de C 4.5/C 5) aunque no creo que se limiten a él. Mi conjetura es que esto es lo que el OP tiene en mente - es por lo general lo que alguien quiere decir cuando dicen "Árbol de Decisión".
Limitaciones de los árboles de decisión :
Bajo rendimiento
Por "rendimiento" no me refiero a la resolución, sino a velocidad de ejecución . La razón por la que es deficiente es que hay que "redibujar el árbol" cada vez que se desea actualizar el modelo CART; los datos clasificados por un Árbol ya entrenado, que luego se quieren añadir al Árbol (es decir, utilizar como punto de datos de entrenamiento) requieren que se empiece desde el principio; las instancias de entrenamiento no pueden añadirse de forma incremental, como ocurre con la mayoría de los demás algoritmos de aprendizaje supervisado. Tal vez la mejor manera de expresar esto es que los Árboles de Decisión no pueden ser entrenados en modo online, sino sólo en modo batch. Obviamente, usted no notará esta limitación si no actualiza su clasificador, pero entonces esperaría que viera una caída en la resolución.
Esto es importante porque, por ejemplo, en el caso de los perceptrones multicapa, una vez que se han entrenado, pueden empezar a clasificar los datos; esos datos también pueden utilizarse para "afinar" el clasificador ya entrenado, mientras que en el caso de los árboles de decisión, hay que volver a entrenar con todo el conjunto de datos (los datos originales utilizados en el entrenamiento más las nuevas instancias).
Mala resolución en datos con relaciones complejas entre las variables
Los árboles de decisión clasifican por medio de una evaluación paso a paso de un punto de datos de clase desconocida, un nodo a la vez, empezando por el nodo raíz y terminando con un nodo terminal. Y en cada nodo sólo son posibles dos posibilidades (izquierda-derecha), por lo que hay algunas relaciones variables que los árboles de decisión no pueden aprender.
Prácticamente limitado a la clasificación
Los árboles de decisión funcionan mejor cuando se entrenan para asignar un punto de datos a una clase, preferiblemente una de las pocas clases posibles. No creo que haya tenido nunca éxito utilizando un Árbol de Decisión en modo de regresión (es decir, con resultados continuos, como el precio o los ingresos esperados durante la vida útil). No se trata de una limitación formal o inherente, sino de una limitación práctica. La mayoría de las veces, los Árboles de Decisión se utilizan para la predicción de factores o resultados discretos.
Mala resolución con variables de expectativas continuas
Una vez más, en principio, está bien tener variables independientes como "tiempo de descarga" o "número de días desde la última compra en línea", simplemente cambie su criterio de división a la varianza (normalmente es la Entropía de la Información o la Impureza de Gini para las variables discretas), pero en mi experiencia los Árboles de Decisión rara vez funcionan bien en estos casos. Las excepciones son casos como la "edad del estudiante", que parece continua, pero en la práctica el rango de valores es bastante pequeño (sobre todo si se presentan como números enteros).