4 votos

El cambio de la secuencia de variables en un bosque aleatorio cambios en el modelo de la precisión de la clasificación

Me parece que la precisión de la clasificación del bosque aleatorio cambios en el modelo, cuando la secuencia de las variables de entrada del cambio.

E. g.

set.seed(143)
artCheck.forest<-randomForest(GoodArt.check~Brush+Min.Guarantee.Cost+Top.3.artists+Brush.Size+Brush.Finesse+Art.Nationality+Art.Type, data=noYes,imp=T,type='classification')

La matriz de confusión es

    NO YES class.error
NO  84  12   0.1250000
YES 15  47   0.2419355

Cuando el "Cepillo" variable se mueve a una posición diferente, dicen

set.seed(143)
artCheck.forest<-randomForest(GoodArt.check~Min.Guarantee.Cost+Top.3.artists+Brush+Brush.Size+Brush.Finesse+Art.Nationality+Art.Type, data=noYes,imp=T,type='classification')

La matriz de confusión se convierte en

    NO YES class.error
NO  83  13  0.13541667
YES  5  57  0.08064516

La secuencia de los nombres de las variables en el dataframe es como sigue :

1   Art Auction House
2   IsGood Purchase
3   Critic Ratings
4   Buyer No
5   Zip Code
6   Art Purchase Date
7   Year of art piece
8   Acq Cost
9   Art Category
10  Size
11  Length
12  Width
13  SizeRatio
14  Border of art piece
15  Art Type
16  Prominent Color
17  CurrentAuctionAveragePrice
18  Premium
19  Brush
20  Brush Size
21  Brush Finesse
22  Art Nationality
23  Top 3 artists 
24  CollectorsAverageprice
25  Profit
26  GoodArt check
27  AuctionHouseGuarantee
28  Vnst
29  Is It Online Sale
30  Min Guarantee Cost

4voto

dan90266 Puntos 609

Proporción clasificados correctamente no es sólo una mala regla de puntuación (que es optimizado por elegir mal la cuenta y darles el mal pesos), pero es extremadamente información-perder y tiene una alta varianza. Asegúrese de que usted puede obtener las probabilidades de salir del bosque al azar, y considerar el uso de la Brier score o puntuación de reglas en el juzgamiento de las predicciones.

Para obtener más información, consulte la Sección 17.4 y el Capítulo 18 de la Bioestadística para la Investigación Biomédica del http://biostat.mc.vanderbilt.edu/ClinStat así como http://www.citeulike.org/user/harrelfe/tag/proper-scoring-rule .

1voto

James Puntos 1294

Creo que la razón por la que usted está teniendo resultados diferentes es porque, incluso si se establece la semilla, se puede obtener de los árboles en diferentes variables de su secuencia.

Por otra parte, como dijo Frank, la exactitud de la clasificación tiene una alta varianza. ¿Cómo calcular la matriz de confusión? Trate de obtener una baja varianza de la matriz de confusión basa en la licencia-en-out dado que usted tiene sólo unos pocos registros. También, puede que desee aumentar ntree para obtener una varianza menor, dado que el valor predeterminado es 500.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X