¿Podemos interpretar como una especie de una puntuación de confianza que se asigna a ese valor de la clase prevista probabilidad posterior de un clasificador que salidas un valor predicho de la clase y una probabilidad (por ejemplo, regresión logística o Naive Bayes)?
Respuestas
¿Demasiados anuncios?Para un caso de prueba (entrada especial), su clase (decir la etiqueta 1 para la salida binaria) probabilidad predictiva es la oportunidad que el ejemplo de la prueba pertenece a esa clase. En muchos tales casos de prueba, la proporción que pertenecen clase 1 tiende a la probabilidad predictiva. Confianza tiene connotaciones de intervalos de confianza, que son algo diferente.
Como otras respuestas correctamente estado, el reporte de las probabilidades de los modelos, tales como la regresión logística y naive Bayes son las estimaciones de la clase de probabilidad. Si el modelo fuera verdadera, la probabilidad sería de hecho la probabilidad de clasificación correcta.
Sin embargo, es muy importante entender que este puede ser engañosa porque el modelo es estimado y por lo tanto no es un modelo correcto. Hay al menos tres cuestiones.
- La incertidumbre de las estimaciones.
- Modelo misspecification.
- Sesgo.
La incertidumbre es sólo el presente en todas partes hecho de que la probabilidad es sólo una estimación. Un intervalo de confianza del estimado de la clase de probabilidad podría proporcionar una idea acerca de la incertidumbre (de la clase de probabilidad y no de la clasificación).
Si el modelo está mal $-$ y la cara, es $-$ la clase de probabilidades puede ser muy engañoso, incluso si la clase de predicciones son buenas. La regresión logística puede obtener la clase de probabilidades de mal para los dos bastante bien separados clases si algunos de los puntos de datos son un poco extremas. Aún es posible hacer un buen trabajo en términos de clasificación.
Si el procedimiento de estimación (intencionalmente) proporciona una estimación sesgada, la clase probabilidades están equivocados. Esto es algo que ver con los métodos de regularización como lazo y la cresta de la regresión logística. Mientras que una cruz validado la elección de la regularización conduce a un modelo con un buen rendimiento en términos de clasificación, la resultante de la clase probabilidades son claramente subestimado demasiado cerca de 0.5) en los casos de prueba. Esto no es necesariamente malo, pero es importante ser consciente de.
Dado un clasificador con 2 clases (por ejemplo, una clase 2 de discriminante lineal o regresión logística clasificador) el discriminante de valor para ambas clases pueden ser aplicados a una softmax función para obtener una estimación de la probabilidad posterior de que la clase:
P1 = exp(d1)/(exp(d1) + exp(d2))
Donde P1 es la probabilidad posterior estimación de la clase 1, d1 y d2 son discriminante valores para las clases 1 y 2, respectivamente. En este caso la estimación de la probabilidad posterior para una determinada clase puede ser tomado como un grado de confianza en la clase, para un caso dado como P1 será igual a 1 - P2.
Si un clasificador predice una cierta clase, con una probabilidad de que el número puede ser utilizado como un proxy para el grado de confianza en que la clasificación. No debe confundirse con los intervalos de confianza. Por ejemplo, si el clasificador de P predice dos casos como los +1 y -1 con probabilidad de 80% y 60%, entonces es correcto decir que es más seguro de que el +1 de la clasificación de la -1 clasificación. La varianza de la medida por p(1-p) es también una buena medida de la incertidumbre. Nota, la línea de base de la confianza es el 50% no 0.