4 votos

Explicación de los números en un árbol de decisión

Utilizando el famoso conjunto de datos Iris con el clasificador de árbol de decisión Julia obtengo el siguiente árbol.

using RDatasets
using DecisionTree
iris = dataset("datasets", "iris")
features = convert(Array, iris[:, 1:4])
labels = convert(Array, iris[:, 5]);
model = build_tree(labels, features)
model = prune_tree(model, 0.9)

print_tree(model)
Feature 3, Threshold 3.0
L-> setosa : 50/50
R-> Feature 4, Threshold 1.8
    L-> Feature 3, Threshold 5.0
        L-> versicolor : 47/48
        R-> Feature 4, Threshold 1.6
            L-> virginica : 3/3
            R-> Feature 1, Threshold 7.2
                L-> versicolor : 2/2
                R-> virginica : 1/1
    R-> Feature 3, Threshold 4.9
        L-> Feature 1, Threshold 6.0
            L-> versicolor : 1/1
            R-> virginica : 2/2
        R-> virginica : 43/43

No puedo interpretar bien los números que aparecen después de algunas ramas, como "setosa : 50/50" o "virginica : 3/3".

¿Podría alguien explicar qué significan?

5voto

Daniel Lew Puntos 39063

Las etiquetas dan el número de observaciones con la clase mayoritaria predicha y el número total de observaciones en ese nodo.

Así, "versicolor : 47/48" significa que en el nodo correspondiente hay 48 observaciones de las cuales 47 son versicolor. Por consiguiente, una observación (de la clase virginica) está mal clasificada en ese nodo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X