7 votos

Cómo calcular la precisión y la llamada cuando algunos de los datos de prueba permanece sin clasificar

Considere una situación en la que estamos ejecutando un clasificador (el algoritmo de clasificación no importa aquí), y las etiquetas de clase se basan en una partitura. Si la puntuación > 0, el punto de datos es Una etiqueta, si la puntuación < 0, el punto de datos etiquetados B.

Todos los datos de entrenamiento contiene datos de puntos positivos o negativos de las puntuaciones. Sin embargo, en mis datos de prueba, hay un par de puntos que volver puntuación = 0. ¿Cómo debo medir la precisión y el recall en este escenario donde algunos de los puntos que no pueden ser clasificados en alguna clase?


[información adicional de un comentario más abajo] me enfrenté a este en un sentimiento de la tarea de clasificación. La normalizado de los puntajes en el rango [-1,1], siendo 0 la puntuación de los documentos con ningún sentimiento. Sucedió, pues, que yo no tenía neutral documentos en mis datos de entrenamiento, pero en los datos de prueba, algunos de los documentos devueltos con una puntuación de 0.

4voto

geni Puntos 91

Es útil tener en cuenta que la precisión/recall son inherentemente ligada a un estado en particular o la etiqueta de interés. La recuperación de la información que la etiqueta podría ser "relevante" como opuesto a "no pertinente", mientras que en el cáncer que la etiqueta podría ser "maligno" como opuesto a "benignas".

Como @Thomas Jungblut menciona, sería válida para el tratamiento de esta no como un problema de clasificación binaria ("A" o "B") sino como un multiclase clasificación del problema ("A", "B", o "sin clasificar"). Hay otros indicadores además de la precisión/recordar que puede ser de interés en la clasificación multiclase. Sin embargo, si usted insiste en la precisión y recall, a continuación, debe seleccionar su etiqueta de interés y, a continuación, este tipo de se convierte de facto de clasificación binaria, una vez más. Usted tiene varias opciones para enmarcar el problema ("A" vs "B o sin clasificar" no es lo mismo como "Un o sin clasificar" vs "B", etc.). Sin embargo, la eficacia con que estos son los mismos que escogiendo simplemente una etiqueta predeterminada.

Pues parece que imparto un significado especial para la clasificación puntuación de 0, parece que tal vez sería apropiado también se aplican algunas de conocimiento de dominio o algún conocimiento de la algoritmo de clasificación utilizado. En el caso general, no hay nada mágico acerca de una puntuación de 0, pero tal vez usted realmente tiene un problema específico en mente cuando este no es el caso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X