Tengo algunas dificultades para entender cómo interpretar el resultado de la importancia de las variables del paquete Random Forest. La disminución media de la precisión suele describirse como "la disminución de la precisión del modelo al permutar los valores de cada característica".
¿Se trata de una declaración sobre la característica en su conjunto o sobre valores específicos dentro de la característica? En cualquier caso, ¿la disminución media de la precisión es el número o la proporción de observaciones que se clasifican incorrectamente al eliminar la característica (o los valores de la característica) en cuestión del modelo?
Digamos que tenemos el siguiente modelo:
require(randomForest)
data(iris)
set.seed(1)
dat <- iris
dat$Species <- factor(ifelse(dat$Species=='virginica','virginica','other'))
model.rf <- randomForest(Species~., dat, ntree=25,
importance=TRUE, nodesize=5)
model.rf
varImpPlot(model.rf)
Call:
randomForest(formula = Species ~ ., data = dat, ntree = 25,
proximity = TRUE, importance = TRUE, nodesize = 5)
Type of random forest: classification
Number of trees: 25
No. of variables tried at each split: 2
OOB estimate of error rate: 3.33%
Confusion matrix:
other virginica class.error
other 97 3 0.03
virginica 2 48 0.04
En este modelo, la tasa de OOB es bastante baja (alrededor del 5%). Sin embargo, la disminución media de la precisión para el predictor (Pétalo.Longitud) con el valor más alto en esta medida es sólo de alrededor de 8.
¿Significa esto que la eliminación de Petal.Length del modelo sólo daría lugar a una clasificación errónea adicional de unas 8 observaciones de media?
¿Cómo es posible que la Disminución Media de la Precisión para Petal.Length sea tan baja, dado que es la más alta en esta medida, y por lo tanto las otras variables tienen valores aún más bajos en esta medida?