5 votos

Poco intuitivo interpretación de las probabilidades cuando se hace la regresión logística

Las observaciones en mi conjunto de datos se puede dividir en dos clases. Las observaciones de la clase 1 se seguro etiquetados correctamente. Las observaciones que ha sido designado para la clase 2 tiene un enorme porcentaje de mislabled de datos. También sé que hay mucho mislabled de datos en la clase 2, ya que hay observaciones en la clase 1. Como un ejemplo, yo hice una pequeña simulación de un potencial conjunto de datos, para simplificar las cosas yo sólo simulado 1 variable y he copiado de la clase 1 observaciones como el etiquetado de la clase 2 observaciones. (Tenga en cuenta que el verdadero conjunto de datos es mucho más grande y contiene múltiples variables, pero el problema sigue siendo el mismo y de esta simulación captura la esencia.)

Class1 = rnorm(1000,0)
Class2 = c(rnorm(1000,10),Class1)

Class1 = data.frame(score = Class1,Class1 = TRUE)  
Class2 = data.frame(score = Class2,Class1 = FALSE)  
dat = rbind(Class1,Class2)

Mi objetivo es decidir qué observaciones en la clase 2 son verdaderamente de clase 2 y que debería haber sido en la clase 2. Ya tengo varias variables I decidió ajustar un modelo de regresión logística en mis datos y el uso de la probabilidad como una medida para decidir si las observaciones de clase 2 están mal etiquetados o no.

fit = glm(Class1~.,data= dat, family = binomial)
hist(fit$fitted.values,xlim = c(0,1),xlab = "P(Class 1)",
     main='Histogram of probabilities of being in Class 1' )

Imgur

Si se hace una gráfica de la probabilties en el histograma, se puede ver una gran cantidad de observaciones de alrededor de 0. Estos son, probablemente, la verdadera clase 2 observaciones. También puede ver una gran cantidad de observaciones alrededor .5. Esto tiene sentido. Usted sabe que hay muchas observaciones en la clase 1, ya que hay mal etiquetados observaciones en la clase 2. Así que si usted ve una observación con un valor del parámetro que viene de la 'clase 1 de distribución, usted puede tener el 50 por ciento de probabilidad que se tiene de la clase 1 de la etiqueta y el 50 por ciento probabilty que se tiene una clase de 2 etiqueta (tan mal etiquetados).

Pero me parece que el de arriba distribtution de probabilties se muestra en el histograma de alguna manera peculier. Yo habría esperado que todos los valores entre 0 y 0.5. En lugar de eso, también puedo ver que algunos de los valores por ejemplo alrededor .6. Así que si veo una de las observaciones con estos valores de la variable estoy de 60 por ciento seguro de que pertenece a la clase 1. ¿Cómo puede ser esto? En mi simulación de ejemplo he copiado los mismos valores para la clase 1 y la mislabled de la clase 2, por lo que por encima de observación en teoría debería no ser posible.

¿Cómo debo interpretar esto? Son estas probabilidades significativo?

Gracias de antemano

EDITAR: En respuesta a @whuber yo también addded la siguiente trama de datos.

plot(dat); curve(1/(1 + exp(-coef(fit) %*% rbind(1, x))), add=TRUE)

Imgur

6voto

jldugger Puntos 7490

Usted puede ser el razonamiento con dos diferentes, contradictorios modelos. El argumento (en los comentarios a la pregunta) se supone que la variación de la puntuación de la media para cada clase ( $0$ $10$ ) no tiene influencia en el registro de las probabilidades de inclusión de clases, mientras que el modelo explícitamente supone que las probabilidades de registro son una función lineal de la partitura. El modelo utilizado en el argumento es el modelo utilizado para generar los datos , pero no es el modelo utilizado para ajustar los datos.

No hay nada que el problema con la mayoría de este enfoque: la verdad es que puede ser una buena idea para generar datos en una forma que difiere de lo que el modelo de espera, debido a que puede ayudar a evaluar la robustez del modelo a la violación de los supuestos. Sólo asegúrese de mantener la distinción entre los datos reales del proceso de generación y los supuestos del modelo de proceso de montaje claramente en la mente, y todo debería estar bien.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X