4 votos

R - Biblioteca ROCR - Entender la predicción y el método de predicción

Me llamo Abhi y estoy tratando de entender la diferencia entre predecir y pronosticar.

Estoy usando el lenguaje r y mi ide es rstudio. He creado un modelo de bosque aleatorio (paquete r randomForest)

myModel <- randomForest(Survived ~ .,data = modelData[,-1],importance = T)
modelResponses = predict(model,type = "prob") # I am guessing this gives probability of survival for each passenger 
temp1 = modelResponses[,2]
pred = prediction(temp1,trainData$Survived) #Not Sure whats is the pred object 

Aquí están mis preguntas

  1. ¿Qué es el objeto pred?
  2. He visto algún código que utiliza el objeto pred para trazar la curva auc. Sé que temp1 es la probabilidad de supervivencia de cada registro. Digamos que la probabilidad de supervivencia de un registro concreto es de 0,55. ¿Cómo sabe la función de predicción clasificar esto como sobrevivido o no sobrevivido?
  3. ¿Cómo puedo utilizar este modelo para clasificar nuevos datos? Hasta ahora estaba usando modelResponses = predict(model,type = "prob") pero ahora no estoy tan seguro. De nuevo la misma confusión que el punto 2, cómo determina el sistema el mejor punto de corte para las probabilidades.

Muchas gracias chicos. Cualquier ayuda será muy apreciada.

Saludos,

2voto

Jack Puntos 18

Aquí están las respuestas:

1) Pred es un objeto intermedio, a partir del cual se pueden trazar varias métricas como el AUC, la curva ROC, los costes asociados a varias clasificaciones falsas, etc.

2) Si tiene probabilidades de clase estimadas para el objeto pred, el gráfico puede mostrar las clasificaciones basadas en todos los puntos de corte de 0..1, no sólo un corte arbitrario como 0,5.

3) El sistema no puede determinar por sí mismo qué punto de corte arbitrario para la probabilidad de clase debe utilizarse. Tiene que decidirlo usted mismo tras consultar varias métricas. ¿Los costes asociados a la clasificación de falsos positivos son iguales a los de los falsos negativos? Si no son iguales, hay que ajustar el punto de corte en consecuencia.

¿Y tal vez podría utilizar las probabilidades de clase brutas y seleccionar los casos para el análisis cuando la relación entre las probabilidades de clase y la probabilidad de clase media sea lo suficientemente alta y los costes/beneficios lo justifiquen?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X