1 votos

Cómo determinar las variables importantes en el árbol de decisión

He creado un modelo de árbol de decisión en el conjunto de datos Auto.

tree.auto = tree(highmpg ~ .,df)

He adjuntado la trama y copiado el resumen.

> summary(tree.auto)

Classification tree:
tree(formula = highmpg ~ ., data = df)
Variables actually used in tree construction:
[1] "horsepower"   "year"         "origin"       "weight"       "displacement"
Number of terminal nodes:  13 
Residual mean deviance:  0.2311 = 87.59 / 379 
Misclassification error rate: 0.05867 = 23 / 392 

Ahora, me pregunto cómo encontrar las variables más importantes que influyen en highmpg. ¿Debo hacerlo a partir de la división en el diagrama de árbol?

Por favor, aconséjeme. tree plot

1voto

Emma Jean Puntos 21

Podría realizar una poda en su árbol, que esencialmente elimina las ramas que no tienen un impacto significativo en su tasa de error. Su otra opción es utilizar los mismos datos para construir un modelo de bosque aleatorio. A partir de un modelo de bosque aleatorio, debería poder obtener valores de "importancia de las variables".

Quizá le interese echar un vistazo a Introducción al aprendizaje estadístico con aplicaciones en R . Tiene un capítulo titulado "Métodos basados en árboles" que creo que sería muy aplicable en tu caso. Si no me equivoco, debería haber una versión gratuita de este libro de texto circulando por la red.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X