6 votos

¿Son randomForest importancia variable valores comparables en las mismas variables en diferentes fechas?

Son randomForest variable de importancia comparable través de las mismas variables en fechas diferentes?

Tengo una matriz de datos X, que es de tamaño $T\times N\times K$, donde $T=1500$, $N=1500$ y $K=10$.

Físicamente, el 1 índice $1,2,\ldots,T$ denota días, mientras que la 2ª índice $1,2,\ldots,N$ representa las ubicaciones, y la 3ª índice $1,2,\ldots,K$ representa el $K$ funciones/variables a medir en cada lugar, en cada día.

La variable dependiente es otra matriz $Y$ que es de tamaño $T\times N$.

Ahora puedo ejecutar randomForest en cada fecha:

library(randomForest)

importanceValues=matrix(0, T, 10)

for (i in 1:T)

{
    y=Y[i, ]

    x1=X[i, ,1]
    x2=X[i, ,2]
    x3=X[i, ,3]
    x4=X[i, ,4]
    x5=X[i, ,5]
    x6=X[i, ,6]
    x7=X[i, ,7]
    x8=X[i, ,8]
    x9=X[i, ,9]
    x10=X[i, ,10]

    rf=randomForest(y~x1+x2+x3+x4+x5+x6+x7+x8+x9+x10, importance=T, na.action=na.omit)

    importanceValues[i, ]=rf$importance[, 2]

}

Como se puede ver, puedo obtener la variable valores de importancia a través de las fechas:

Por ejemplo, en la última fecha anterior, tenemos:

> rf$importance
                          %IncMSE      IncNodePurity
x1                          311.0803     1113618.9
x2                         4627.7532     3415010.7
x3                         8527.4607     4916842.7
x4                         3507.1872     2919601.3
x5                         2982.0577     2907352.5
x6                         5673.6522     5247811.5
x7                         3893.7793     3618126.4
x8                          135.2311      248212.5
x9                         1759.8080     2334093.9
x10                         852.3294     1562279.1

Mis preguntas son:

  1. Cuál es más útil? (IncMSE o IncNodePurity?)
  2. ¿Cómo puedo explicar a un no-dataminer lo "IncNodePurity"?
  3. ¿Cuál es la unidad de la "IncNodePurity" columna? Y puedo comparar estos números a través de fechas?
  4. Una fecha, por ejemplo, 9/18/2008, la mayoría de los "IncNodePurity" los números son mucho más grandes que los de otra fecha, por ejemplo, 6/1/2012. ¿Qué puedo decir acerca de los conjuntos de datos en estas dos fechas diferentes? (Son diferentes observaciones para las mismas variables en diferentes fechas)

Gracias!

8voto

ESRogs Puntos 1381

Anuncio de 1. IncMSE es un resultado real de la cruz-bolsa de prueba, por lo que en teoría es mejor que IncNodePurity que es una formación de producto.

Ad 3. Y 4. Para ser honesto, estos valores tienen un poco de sentido propio, dependen de la forma en buenas RF es una prueba de corriente, y esto es muy variable. Si quieres comparar nada, comparar ranking calculado en los datos.

Ad 2. De esta manera es bastante falso para empujar el significado de ambas medidas más que sólo una puntuación de importancia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X