13 votos

¿Cómo formar una curva de recuperación de precisión cuando solo tengo un valor para PR?

Tengo una minería de datos asignación de donde puedo hacer un contenido basado en la recuperación de imagen del sistema. Tengo 20 imágenes de los 5 animales. Así, en total 100 imágenes.

Mi sistema devuelve el 10 la mayoría de las imágenes relevantes para una imagen de entrada. Ahora necesito para evaluar el rendimiento de mi sistema con una Precision-Recall de la curva. Sin embargo, no entiendo el concepto de Precision-Recall de la curva. Digamos que mi sistema devuelve 10 imágenes para un gorila de la imagen, pero sólo 4 de ellos son los gorilas. Los otros 6 imágenes devueltos de otros animales. Por lo tanto,

  • la precisión es 4/10 = 0.4 (relevants devuelto) / (devueltos)
  • recordar es 4/20 = 0.2 (relevants devuelto) / (todos los relevants)

Así que sólo tienen un punto de, <0.2,0.4>, no una curva. ¿Cómo puedo tener una curva (es decir, un conjunto de puntos)? Debo cambiar el número de imágenes devuelto (este se fija en 10 en mi caso)?

12voto

Marc Claesen Puntos 9818

La generación de un PR de la curva es similar a la generación de una curva ROC. Para sacar estas parcelas se necesita un ranking de la prueba de conjunto. Para hacer este ranking, usted necesita un clasificador que las salidas de una decisión de valor en lugar de una respuesta binaria. La decisión de valor es una medida de la confianza en una predicción que se pueden utilizar para clasificar todas las instancias de prueba. Como ejemplo, los valores de la decisión de la regresión logística y SVM son una probabilidad y un (firmado) distancia a la separación de hyperplane, respectivamente.

Si usted disponer de los valores de la decisión de definir un conjunto de umbrales de dichos valores de la decisión. Estos umbrales son diferentes ajustes de un clasificador: por ejemplo, usted puede controlar el nivel de conservadurismo. Para la regresión logística, el umbral por defecto sería $f(\mathbf{x}) = 0.5$, pero usted puede ir a través de todo el rango de $(0, 1)$. Normalmente, los umbrales son elegidos para ser los únicos valores de la decisión de su modelo de cedido para la prueba de conjunto.

En cada elección del umbral, su modelo de rendimientos de los diferentes predicciones (por ejemplo, número diferente de lo positivo y negativo de las predicciones). Como tal, se obtiene un conjunto de tuplas con diferente precisión y recall en cada umbral, por ejemplo, un conjunto de tuplas $( T_i, P_i, R_i )$. La PR de la curva se dibuja en el $( P_i, R_i )$ pares.

Si he entendido tu comentario correctamente, el total de la puntuación de similitud de calcular puede ser utilizado como una decisión de valor.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X