8 votos

La precisión de un clasificador aleatorio

Me preguntaba cómo comparar la precisión de mi clasificador a uno aleatorio.

Voy a elaborar más. Digamos que tenemos un problema de clasificación binaria. Tenemos $n^+$ ejemplos positivos y $n^-$ ejemplos negativos en la prueba de conjunto. Yo digo que y registro es positivo, con una probabilidad de $p$.

Me puede estimar que, en promedio, obtengo: $$TP = pn^+ \ TN=(1-p)n^- \ FN = pn^- \ FP = (1-p)n^+$$ así $$\mbox{acc} = \frac{TP+TN}{TP+TN+FP+FN} = \frac{pn^+ + (1-p)n^-}{pn^+(1-p)n^-pn^- + (1-p)n^+}$$ que es $$ = \frac{pn^+ + (1-p)n^-}{n^+ + n^-}$$ Por ejemplo, si tenemos $n^+=n^-$ la precisión es siempre $1/2$ cualquier $p$.

Esto puede ser extendido en el registro multiclase de clasificación: $$\mbox{acc} = \frac{\sum_{i=1}^c p_i n_i}{\sum n_i}$$ donde $p_i$ es la probabilidad de que decir "es en el $i$th class", y $n_i$ es el recuento de los registros de clase $i$. También en este caso, si $n_i = n/c \ \forall i$ $$\mbox{acc} = 1/c$$

Pero, ¿cómo puedo comparar la exactitud de mi clasificador sin citar a un conjunto de pruebas? Por ejemplo, si me dijo: mi clasificador de precisión es de 70% (estimado de alguna manera, por ejemplo, la Validación Cruzada), ¿es bueno o malo en comparación al azar a una clasificadora?

4voto

christy Puntos 51

Yo no estoy seguro de entender la última parte de su pregunta

Pero, ¿cómo puedo comparar la exactitud de mi clasificador sin citar a un conjunto de pruebas?

pero creo que entiendo su preocupación. Dado un clasificador binario de la precisión de 90% puede ser engañosa si la frecuencia natural de un caso vs el otro es de 90/100. Si el clasificador simplemente elige siempre el más común de los casos, a continuación, será, en promedio, de ser correcto el 90% del tiempo. Un útil de puntuación para dar cuenta de este problema es la Información de la puntuación. Un documento que describe la partitura y su justificación se puede encontrar aquí. Aprendí acerca de esta puntuación porque es parte de la validación cruzada suite en el excelente Naranja herramientas de minería de datos (se puede usar no-codificación necesaria de programación visual o llame a las bibliotecas de Python).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X