¿Son randomForest importancia variable valores comparables en las mismas variables en diferentes fechas?

Question

¿Son randomForest importancia variable valores comparables en las mismas variables en diferentes fechas?

Preguntado el 10 de Julio, 2012: Cuando se hizo la pregunta
805 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Son randomForest variable de importancia comparable través de las mismas variables en fechas diferentes?

Tengo una matriz de datos X, que es de tamaño $T\times N\times K$, donde $T=1500$, $N=1500$ y $K=10$.

Físicamente, el 1 índice $1,2,\ldots,T$ denota días, mientras que la 2ª índice $1,2,\ldots,N$ representa las ubicaciones, y la 3ª índice $1,2,\ldots,K$ representa el $K$ funciones/variables a medir en cada lugar, en cada día.

La variable dependiente es otra matriz $Y$ que es de tamaño $T\times N$.

Ahora puedo ejecutar randomForest en cada fecha:

library(randomForest)

importanceValues=matrix(0, T, 10)

for (i in 1:T)

{
    y=Y[i, ]

    x1=X[i, ,1]
    x2=X[i, ,2]
    x3=X[i, ,3]
    x4=X[i, ,4]
    x5=X[i, ,5]
    x6=X[i, ,6]
    x7=X[i, ,7]
    x8=X[i, ,8]
    x9=X[i, ,9]
    x10=X[i, ,10]

    rf=randomForest(y~x1+x2+x3+x4+x5+x6+x7+x8+x9+x10, importance=T, na.action=na.omit)

    importanceValues[i, ]=rf$importance[, 2]

}

Como se puede ver, puedo obtener la variable valores de importancia a través de las fechas:

Por ejemplo, en la última fecha anterior, tenemos:

> rf$importance
                          %IncMSE      IncNodePurity
x1                          311.0803     1113618.9
x2                         4627.7532     3415010.7
x3                         8527.4607     4916842.7
x4                         3507.1872     2919601.3
x5                         2982.0577     2907352.5
x6                         5673.6522     5247811.5
x7                         3893.7793     3618126.4
x8                          135.2311      248212.5
x9                         1759.8080     2334093.9
x10                         852.3294     1562279.1

Mis preguntas son:

Cuál es más útil? (IncMSE o IncNodePurity?)
¿Cómo puedo explicar a un no-dataminer lo "IncNodePurity"?
¿Cuál es la unidad de la "IncNodePurity" columna? Y puedo comparar estos números a través de fechas?
Una fecha, por ejemplo, 9/18/2008, la mayoría de los "IncNodePurity" los números son mucho más grandes que los de otra fecha, por ejemplo, 6/1/2012. ¿Qué puedo decir acerca de los conjuntos de datos en estas dos fechas diferentes? (Son diferentes observaciones para las mismas variables en diferentes fechas)

Gracias!

Preguntado el 10 de Julio, 2012 por kingchris

Answer 1

1 Respuestas

Answer 2

8voto

ESRogs Puntos 1381

Anuncio de 1. IncMSE es un resultado real de la cruz-bolsa de prueba, por lo que en teoría es mejor que IncNodePurity que es una formación de producto.

Ad 3. Y 4. Para ser honesto, estos valores tienen un poco de sentido propio, dependen de la forma en buenas RF es una prueba de corriente, y esto es muy variable. Si quieres comparar nada, comparar ranking calculado en los datos.

Ad 2. De esta manera es bastante falso para empujar el significado de ambas medidas más que sólo una puntuación de importancia.

Respondido el 11 de Julio, 2012 por ESRogs (1381 Puntos )

¿Son randomForest importancia variable valores comparables en las mismas variables en diferentes fechas?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Son randomForest importancia variable valores comparables en las mismas variables en diferentes fechas?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: