Cuando se construye un modelo CART (específicamente un árbol de clasificación) utilizando rpart (en R), a veces es obvio que hay variables (X) que son significativas para predecir algunas de las variables de resultado (y) - mientras que otros predictores son relevantes sólo para otras y.
¿Cómo se puede estimar qué variable explicativa se "utiliza" para cada uno de los valores predichos en la variable de resultado?
Este es un código de ejemplo en el que x2 es la única variable importante para predecir "b" (uno de los resultados de y). No hay ninguna variable de predicción para "c", y x1 es un predictor para "a", suponiendo que x2 lo permite.
¿Cómo se puede extraer esta situación del modelo ajustado?
N <- 200
set.seed(5123)
x1 <- runif(N)
x2 <- runif(N)
x3 <- runif(N)
y <- sample(letters[1:3], N, T)
y[x1 <.5] <- "a"
y[x2 <.1] <- "b"
fit <- rpart(y ~ x1+x2)
fit2 <- prune(fit, cp= 0.07)
plot(fit2)
text(fit2, use.n=TRUE)
Gracias.