44 votos

Medidas de importancia variable en bosques aleatorios

He estado jugando con el azar de los bosques para la regresión y estoy teniendo dificultades para trabajar exactamente lo que las dos medidas de importancia media, y cómo deben ser interpretados.

El importance() función da dos valores para cada variable: %IncMSE y IncNodePurity. Hay simples interpretaciones para estos 2 valores?

Para IncNodePurity , en particular, es simplemente la cantidad de la RSS aumentar después de la eliminación de esa variable?

Yo agradecería cualquier aclaración :)

47voto

pkaeding Puntos 12935

La primera de ellas puede ser "interpretado" de la siguiente manera: si un indicador es importante en el modelo actual, a continuación, asignar otros valores para que el predictor de manera aleatoria, pero 'realista' (es decir: permuting este predictor de valores sobre el conjunto de datos), debe tener una influencia negativa en la predicción, es decir: utilizando el mismo modelo para predecir, a partir de datos que es el mismo a excepción de la variable, debe dar peores predicciones.

Así, se toma una predicción de medida (MSE) con el conjunto de datos original y, a continuación, con el 'permutada' conjunto de datos, y se compara con ellos de alguna manera. De una manera, sobre todo porque se espera que la original MSE a ser siempre menor, la diferencia puede ser tomado. Finalmente, para la fabricación de los valores comparables sobre las variables, estas son a escala.

Para el segundo: en cada división, se puede calcular cuánto esta división se reduce nodo de la impureza (para árboles de regresión, de hecho, la diferencia entre la RSS antes y después de la división). Esto se resume más de todas las divisiones de esa variable, sobre todos los árboles.

Nota: una buena lectura es Elementos de Aprendizaje Estadístico por Hastie, Tibshirani y Friedman...

11voto

lvmisooners Puntos 328

Bosque aleatorio importancia de las métricas, como el implementado en el randomForest paquete en R tienen peculiaridades en que se correlaciona predictores obtienen bajos valores de importancia.

http://bioinformatics.oxfordjournals.org/content/early/2010/04/12/bioinformatics.btq134.full.pdf

Tengo una versión modificada de la aplicación indiscriminada de los bosques en CRAN que implementa su enfoque de la estimación empírica de los valores de p y de falso descubrimiento de precios, aquí

http://cran.r-project.org/web/packages/pRF/index.html

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X