Las observaciones en mi conjunto de datos se puede dividir en dos clases. Las observaciones de la clase 1 se seguro etiquetados correctamente. Las observaciones que ha sido designado para la clase 2 tiene un enorme porcentaje de mislabled de datos. También sé que hay mucho mislabled de datos en la clase 2, ya que hay observaciones en la clase 1. Como un ejemplo, yo hice una pequeña simulación de un potencial conjunto de datos, para simplificar las cosas yo sólo simulado 1 variable y he copiado de la clase 1 observaciones como el etiquetado de la clase 2 observaciones. (Tenga en cuenta que el verdadero conjunto de datos es mucho más grande y contiene múltiples variables, pero el problema sigue siendo el mismo y de esta simulación captura la esencia.)
Class1 = rnorm(1000,0)
Class2 = c(rnorm(1000,10),Class1)
Class1 = data.frame(score = Class1,Class1 = TRUE)
Class2 = data.frame(score = Class2,Class1 = FALSE)
dat = rbind(Class1,Class2)
Mi objetivo es decidir qué observaciones en la clase 2 son verdaderamente de clase 2 y que debería haber sido en la clase 2. Ya tengo varias variables I decidió ajustar un modelo de regresión logística en mis datos y el uso de la probabilidad como una medida para decidir si las observaciones de clase 2 están mal etiquetados o no.
fit = glm(Class1~.,data= dat, family = binomial)
hist(fit$fitted.values,xlim = c(0,1),xlab = "P(Class 1)",
main='Histogram of probabilities of being in Class 1' )
Si se hace una gráfica de la probabilties en el histograma, se puede ver una gran cantidad de observaciones de alrededor de 0. Estos son, probablemente, la verdadera clase 2 observaciones. También puede ver una gran cantidad de observaciones alrededor .5. Esto tiene sentido. Usted sabe que hay muchas observaciones en la clase 1, ya que hay mal etiquetados observaciones en la clase 2. Así que si usted ve una observación con un valor del parámetro que viene de la 'clase 1 de distribución, usted puede tener el 50 por ciento de probabilidad que se tiene de la clase 1 de la etiqueta y el 50 por ciento probabilty que se tiene una clase de 2 etiqueta (tan mal etiquetados).
Pero me parece que el de arriba distribtution de probabilties se muestra en el histograma de alguna manera peculier. Yo habría esperado que todos los valores entre 0 y 0.5. En lugar de eso, también puedo ver que algunos de los valores por ejemplo alrededor .6. Así que si veo una de las observaciones con estos valores de la variable estoy de 60 por ciento seguro de que pertenece a la clase 1. ¿Cómo puede ser esto? En mi simulación de ejemplo he copiado los mismos valores para la clase 1 y la mislabled de la clase 2, por lo que por encima de observación en teoría debería no ser posible.
¿Cómo debo interpretar esto? Son estas probabilidades significativo?
Gracias de antemano
EDITAR: En respuesta a @whuber yo también addded la siguiente trama de datos.
plot(dat); curve(1/(1 + exp(-coef(fit) %*% rbind(1, x))), add=TRUE)