Algunas posibilidades que vienen a mi mente.
Buscando en el global tasa de éxito no es generalmente una muy buena idea, ya que dependerá de la composición de la prueba de establecer si el rendimiento de las diferentes clases de diferencia. Así, al menos, usted debe especificar (y justificar) la frecuencia relativa de las clases en sus datos de prueba a fin de obtener un valor significativo.
En segundo lugar, como @Shorack ya se dijo, especificar qué tipos de error son lo importante. A menudo, el clasificador debe cumplir ciertos criterios de rendimiento con el fin de ser útil (y en general de la exactitud rara vez es la medida adecuada).
Hay medidas como la sensibilidad, la especificidad, el positivo y el negativo precdictive valor que tome en cuenta las diferentes clases y diferentes tipos de errores de clasificación. Se puede decir que estas medidas responder a diferentes preguntas sobre el clasificador:
- sensibilidad: ¿Qué fracción de los casos verdaderamente pertenecientes a la clase C es reconocido como tal?
- especificidad: ¿Qué fracción de los casos verdaderamente no pertenecientes a la clase C es reconocido como tal?
- valor predictivo positivo: Dado el clasificador predice la clase C, ¿cuál es la probabilidad de que esta predicción es correcta?
- valor predictivo negativo: Dado el clasificador predice que el caso es que no la forma de clase C, ¿cuál es la probabilidad de que esta predicción es correcta?
Estas preguntas a menudo permiten formular las especificaciones que el clasificador debe necesitar para ser útil.
Los valores predictivos son a menudo más importante desde el punto de vista de la aplicación práctica de la clasificación: ellos están condicionadas a la predicción, que es la situación en la que están en la hora de aplicar el classifer (un paciente por lo general no está interesado en saber cuál es la probabilidad de la prueba es reconocer a los enfermos de los casos, sino más bien cuál es la probabilidad declaró el diagnóstico es correcto). Sin embargo, con el fin de calcular correctamente ellos necesitan saber las frecuencias relativas de las diferentes clases de la población, el clasificador se utiliza para (parece que tenga esta información - así que no hay nada que le impide mirar esa).
También puede buscar en la ganancia de información que un resultado positivo o negativo de predicción de la da. Esto se mide por la probabilidad positivo y negativo ratio , LR⁺ y LR⁻. Brevemente, decirle lo mucho que la predicción de los cambios de las probabilidades hacia la clase en cuestión.
(véase mi respuesta aquí para una explicación más detallada)
Para su trivial clasificador, las cosas se ven así:
Voy a utilizar el "0" de la clase como la clase en cuestión, de modo "positivo" significa la clase "0".
De cada 100 casos, 100 predicción positiva (a pertenecer a la clase 0). 97 de ellos realmente, 3 no.
La sensibilidad para la clase 0 es del 100% (todos los 97 casos verdaderamente pertenecientes a la clase 0 se reconoce), la especificidad es 0 (ninguno de los otros casos fueron reconocidos). positivo predicitve valor (suponiendo que el 97:3 frecuencia relativa es representante) es de 97%, valor predictivo negativo no puede ser calculado como no negativo predicción ocurrido.
$LR^+ = \frac{\text{sensitivity}}{1 - \text{specificity}} = 1$
$LR^- = \frac{1 - \text{sensitivity}}{\text{specificity}} = \frac{0}{0}$
Ahora LR⁺ y LR⁻ son factores con los que se multiplican las probabilidades para el caso de pertenecer a la positiva de la clase ("0"). Tener un LR⁺ de 1 significa que el positivo de predicción de no dar información de ningún tipo: no va a cambiar las probabilidades. Así que aquí tenéis una medida que expresa claramente el hecho de que su trivial clasificador no añade ninguna información.
Dirección completamente diferente de pensamientos: Usted menciona que gustaría evaluar los diferentes clasificadores. Eso suena un poco como el clasificador de la comparación o de la selección. La advertencia de que con las medidas que les comente anteriormente es que están sujetos a muy alta al azar de la incertidumbre (lo que significa que necesita un montón de casos de prueba) si de la evaluación en "hard" etiquetas de clase. Si su predicción es principalmente continua (métrica, por ejemplo, probabilidad posterior) se puede usar medidas relativas a mirar en el mismo tipo de pregunta, pero no el uso de las fracciones de los casos, pero las medidas continuas, ver aquí.
Estos estarán mejor adaptadas para detectar pequeñas diferencias en las predicciones.
(@FrankHarrell le dirá que usted necesita "propias reglas de puntuación", por lo que es otro término de búsqueda a tener en cuenta.)