2 votos

¿Es posible este caso para el Árbol de decisión?

Estoy estudiando el árbol de decisión y me gustaría saber si este caso es posible:

Tenemos 2 características, cada una no disminuye el Gini del nodo anterior (=> no elegir), pero su combinación (dos decisiones una tras otra) disminuyen el Gini sobre el anterior (=> perder información)

¿Es posible o no?

2voto

Vitaly Zdanevich Puntos 95

Sí, es posible. El problema XOR es un ejemplo sencillo para este caso. El conjunto de datos es $$C_1=(0,1),(1,0), C_2=(1,1),(0,0)$$ donde $C_i$ es la clase $i$ . En la raíz, la distribución de clases es $1/2-1/2$ . Cualquier división (p. ej. $x\lessgtr 0.5$ , $y\lessgtr0.5$ ...) dará lugar a la misma distribución de clases, por lo que la ganancia de información es 0 o el índice gini no disminuirá. Pero, en el siguiente paso, clasificaremos perfectamente las muestras.

Por lo tanto, una implementación del árbol de decisión con estricto condición de mejora en un nivel no será capaz de aprender este conjunto de datos.

1 votos

Muchas gracias por su respuesta. Así que podemos concluir: "El algoritmo CART [...] no comprueba si la división conducirá o no a la impureza más baja posible varios niveles más abajo. [...] a menudo produce una solución que es razonablemente buena pero no garantiza que sea óptima". Keras y TensorFlow por Aurelien Geron

1 votos

Sí, por supuesto. Encontrar el árbol de decisión óptimo es np-completo, y los algoritmos actuales siguen el enfoque codicioso. Véase lo siguiente: people.csail.mit.edu/rivest/

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X