La manera en que yo lo veo es, se trata de una serie de if-else. Por qué no me acaba de uso if-else en lugar de utilizar un árbol de decisión?
Tienes toda la razón. Un árbol de decisión no es otra cosa sino una serie de if-else. Sin embargo, es la manera de interpretar estas declaraciones como un árbol que nos permite construir estas reglas de forma automática... I. e. dado que algunos ejemplo de entrada de set $(x_1, y_1), ..., (x_N, y_N)$ ... ¿cuál es el mejor conjunto de reglas que describe lo que el valor de $y$ ha dado una nueva entrada de $x$? ID3 y de la misma manera nos permite crear automáticamente estas reglas. No es realmente sobre el árbol una vez construido, se trata de cómo lo hemos creado.
Aparte de que uno casi nunca se utiliza un árbol de decisión solo, la razón de ser precisamente lo que usted dice: es un bonito modelo simplista que carece de expresividad. Sin embargo, tiene una gran ventaja sobre otros modelos: Uno puede calcular un único árbol de decisión bastante rápido. Eso significa que nos puede venir para arriba con algoritmos que entrenar muchos árboles de decisión (impulsar, también conocido como AdaBoost y GradientBoosting) en grandes conjuntos de datos. Estos de la colección de (generalmente más de 500) de estos modelos simplistas (llamado bosque) puede expresar mucho las formas más complicadas.
Usted también podría imagino como esta: Dado un 'bonito' (es decir, continuo), pero complicado función de $f : [a,b] \to \mathbb{R}$ podríamos tratar de aproximar esta función mediante líneas. Si la función es complicado (como $sin(x)$ o así) a continuación, nos producen un gran error. Sin embargo, podríamos combinar líneas en la forma en que dividimos el intervalo de $[a,b]$ en partes más pequeñas $a = a_0 < a_1 < ... < a_M = b$ , y en cada una de las $a_i, a_{i+1}$ tratamos de approximize $f|_{(a_i, a_{i+1})}$ (es decir, $f$ restringido a este intervalo) por una línea. Por matemáticas básicas (análisis) entonces podemos aproximar la función arbitrariamente cerca (es decir, hacer arbitrariamente un pequeño error) si tomamos la suficiente líneas. Por lo tanto, hemos construido un complicado pero el modelo exacto de muy simple. Que es exactamente la misma idea de que (por ejemplo) GradientBoosting usos: Se construye un bosque de muy 'estúpido' único de árboles de decisión.