Cuando la construcción de un CARRO de modelo (específicamente el árbol de clasificación) utilizando rpart (en R), a menudo es interesante saber cuál es la importancia de las distintas variables introducidas en el modelo.
Por lo tanto, mi pregunta es: ¿Qué medidas comunes existe para la clasificación y medición de la variable importancia de la participación de las variables en un modelo CART? Y cómo puede ser calculada mediante R (por ejemplo, cuando se utiliza el rpart paquete)
Por ejemplo, aquí es algunas código ficticio, creado para que usted pueda mostrar sus soluciones. Este ejemplo está estructurado de manera que es claro que la variable x1 y x2 son "importantes", mientras que (en cierto sentido) x1 es más importante, a continuación, x2 (desde x1 deben aplicarse a los más de los casos, por lo tanto hacer más influencia en la estructura de los datos, a continuación, x2).
set.seed(31431)
n <- 400
x1 <- rnorm(n)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
x5 <- rnorm(n)
X <- data.frame(x1,x2,x3,x4,x5)
y <- sample(letters[1:4], n, T)
y <- ifelse(X[,2] < -1 , "b", y)
y <- ifelse(X[,1] < 0 , "a", y)
require(rpart)
fit <- rpart(y~., X)
plot(fit); text(fit)
info.gain.rpart(fit) # your function - telling us on each variable how important it is
(las referencias son siempre bienvenidas)