Son randomForest variable de importancia comparable través de las mismas variables en fechas diferentes?
Tengo una matriz de datos X, que es de tamaño $T\times N\times K$, donde $T=1500$, $N=1500$ y $K=10$.
Físicamente, el 1 índice $1,2,\ldots,T$ denota días, mientras que la 2ª índice $1,2,\ldots,N$ representa las ubicaciones, y la 3ª índice $1,2,\ldots,K$ representa el $K$ funciones/variables a medir en cada lugar, en cada día.
La variable dependiente es otra matriz $Y$ que es de tamaño $T\times N$.
Ahora puedo ejecutar randomForest
en cada fecha:
library(randomForest)
importanceValues=matrix(0, T, 10)
for (i in 1:T)
{
y=Y[i, ]
x1=X[i, ,1]
x2=X[i, ,2]
x3=X[i, ,3]
x4=X[i, ,4]
x5=X[i, ,5]
x6=X[i, ,6]
x7=X[i, ,7]
x8=X[i, ,8]
x9=X[i, ,9]
x10=X[i, ,10]
rf=randomForest(y~x1+x2+x3+x4+x5+x6+x7+x8+x9+x10, importance=T, na.action=na.omit)
importanceValues[i, ]=rf$importance[, 2]
}
Como se puede ver, puedo obtener la variable valores de importancia a través de las fechas:
Por ejemplo, en la última fecha anterior, tenemos:
> rf$importance
%IncMSE IncNodePurity
x1 311.0803 1113618.9
x2 4627.7532 3415010.7
x3 8527.4607 4916842.7
x4 3507.1872 2919601.3
x5 2982.0577 2907352.5
x6 5673.6522 5247811.5
x7 3893.7793 3618126.4
x8 135.2311 248212.5
x9 1759.8080 2334093.9
x10 852.3294 1562279.1
Mis preguntas son:
- Cuál es más útil? (IncMSE o IncNodePurity?)
- ¿Cómo puedo explicar a un no-dataminer lo "IncNodePurity"?
- ¿Cuál es la unidad de la "IncNodePurity" columna? Y puedo comparar estos números a través de fechas?
- Una fecha, por ejemplo, 9/18/2008, la mayoría de los "IncNodePurity" los números son mucho más grandes que los de otra fecha, por ejemplo, 6/1/2012. ¿Qué puedo decir acerca de los conjuntos de datos en estas dos fechas diferentes? (Son diferentes observaciones para las mismas variables en diferentes fechas)
Gracias!