Todas las Especies de Modelado de la Distribución de la literatura sugiere que a la hora de predecir la presencia/ausencia de las especies, utilizando un modelo que genera probabilidades (por ejemplo, RandomForests), la elección del umbral de probabilitiy por que realmente clasificar una especie como la presencia o ausencia es importante y no siempre se debe confiar en el valor por defecto de 0.5. Necesito un poco de ayuda con esto! Aquí está mi código:
library(randomForest)
library(PresenceAbsence)
#build model
RFfit <- randomForest(Y ~ x1 + x2 + x3 + x4 + x5, data=mydata, mytry = 2, ntrees=500)
#eventually I will apply this to (predict for) new data but for first I predict back to training data to compare observed vs. predicted
RFpred <- predict(RFfit, mydata, type = "prob")
#put the observed vs. predicted in the same dataframe
ObsPred <- data.frame(cbind(mydata), Predicted=RFpred)
#create auc.roc plot
auc.roc.plot(ObsPred, threshold = 10, xlab="1-Specificity (false positives)",
ylab="Sensitivity (true positives)", main="ROC plot", color=TRUE,
find.auc=TRUE, opt.thresholds=TRUE, opt.methods=9)
A partir de esto he determinado que el umbral que me gustaría usar para la clasificación de la presencia de la predicción de probabilidades es de 0,7, no el valor por defecto de 0.5. No estoy totalmente de entender qué hacer con esta información. Puedo simplemente usar este umbral cuando la creación de un mapa de mi salida? Yo podría fácilmente crear un mapa de salida continua de probabilidades, a continuación, simplemente reclasificación de aquellos con valores superiores a 0.7 como presente, y las < 0.7 como ausente.
O, ¿quiero tomar esta información y volver a ejecutar mi randomForests modelado, mediante el cut-off parámetro? ¿Qué es exactamente el cut-off parámetro haciendo? ¿Cambia la resultante de la votación? (en la actualidad dice que es "la mayoría"). ¿Cómo debo utilizar este corte parámetro? No entiendo la documentación! Gracias!