Me preguntaba cómo comparar la precisión de mi clasificador a uno aleatorio.
Voy a elaborar más. Digamos que tenemos un problema de clasificación binaria. Tenemos $n^+$ ejemplos positivos y $n^-$ ejemplos negativos en la prueba de conjunto. Yo digo que y registro es positivo, con una probabilidad de $p$.
Me puede estimar que, en promedio, obtengo: $$TP = pn^+ \ TN=(1-p)n^- \ FN = pn^- \ FP = (1-p)n^+$$ así $$\mbox{acc} = \frac{TP+TN}{TP+TN+FP+FN} = \frac{pn^+ + (1-p)n^-}{pn^+(1-p)n^-pn^- + (1-p)n^+}$$ que es $$ = \frac{pn^+ + (1-p)n^-}{n^+ + n^-}$$ Por ejemplo, si tenemos $n^+=n^-$ la precisión es siempre $1/2$ cualquier $p$.
Esto puede ser extendido en el registro multiclase de clasificación: $$\mbox{acc} = \frac{\sum_{i=1}^c p_i n_i}{\sum n_i}$$ donde $p_i$ es la probabilidad de que decir "es en el $i$th class", y $n_i$ es el recuento de los registros de clase $i$. También en este caso, si $n_i = n/c \ \forall i$ $$\mbox{acc} = 1/c$$
Pero, ¿cómo puedo comparar la exactitud de mi clasificador sin citar a un conjunto de pruebas? Por ejemplo, si me dijo: mi clasificador de precisión es de 70% (estimado de alguna manera, por ejemplo, la Validación Cruzada), ¿es bueno o malo en comparación al azar a una clasificadora?