Una medida que se baja cuando muy sesgada evaluadores de acuerdo es en realidad altamente deseable. Gwet del AC1 específicamente asume que la posibilidad de acuerdo debe ser en más de un 50%, pero si ambos evaluadores voto +ve el 90% del tiempo, Cohen y Fleiss/Scott dice que la probabilidad de acuerdo es de 81% en los aspectos positivos y 1% en los negativos para un total de 82% espera precisión.
Este es precisamente el tipo de sesgo que necesita ser eliminado. Una tabla de contingencia de
81 9
9 1
representa la oportunidad de nivel de rendimiento. Fleiss y Cohen Kappa y la Correlación de 0 pero AC1 es engañosa, el 89%. Por supuesto, volvemos a ver la precisión del 82% y también ver Recall y Precisión y F-measue de 90%, si consideramos que en estas condiciones...
Considere dos evaluadores, de los cuales uno es un lingüista que da muy confiable parte del discurso calificaciones sustantivo frente verbo decir, y el otro de los cuales es sin saberlo, un programa de ordenador que es tan desesperada que sólo conjeturas.
Dado que el agua es un sustantivo 90% del tiempo, el lingüista dice sustantivo 90% del tiempo y verbo el 10% del tiempo.
Una forma de adivinación es la etiqueta de palabras con sus más frecuentes de la parte de habla, el otro es adivinar las diferentes partes del discurso con probabilidad dada por su frecuencia. Este último "prevalencia de sesgo de" enfoque será calificado con 0 por todos los Kappa y la Correlación de las medidas, así como DeltaP, DeltaP', Informedness y Markedness (que son los coeficientes de regresión que dar una direccional de predicción de datos, y cuya media geométrica es el de Correlación de Matthews). Corresponde a la tabla de arriba.
El "más frecuentes" parte de la oración al azar tagger da la siguiente tabla de 100 palabras:
90 10
0 0
Que se predice correctamente todos los 90, el lingüista los nombres, pero ninguno de los 10 verbos.
Todos los Kappas y Correlaciones, y Informedness, dar a este 0, pero AC1 le da un engañosa 81%.
Informedness está dando la probabilidad de que el tagger es tomar una decisión informada, que es cuál es la proporción del tiempo que se toma de una decisión informada, y devuelve correctamente no.
Por otro lado, Markedness es estimar qué proporción de tiempo que el lingüista está correctamente marcado de la palabra, y se subestima el 40%. Si consideramos que este en términos de la precisión y el recall del programa, tenemos una Precisión de 90% (tenemos el 10% de malo que son los verbos), pero ya que solo tenemos en cuenta los nombres, tenemos un Recuerdo de 100% (nos sale a todos ellos como el equipo siempre se adivina el nombre). Pero Inversa Recordar es 0, y la Inversa de Precisión no está definido como el ordenador hace que no ve las predicciones (considere el problema inverso donde el verbo es la +ve la clase, de modo que la computadora no es siempre la predicción de la -ve como la más frecuente de clase).
En el Dicotómica caso (dos clases) tenemos
Informedness = Recall + Inversa De Recuerdo - 1.
Markedness = Precisión + Inversa De Precisión - 1.
Correlación = GeoMean (Informedness, Markedness).
Respuesta corta - la Correlación es mejor cuando no hay nada que elegir entre los evaluadores, de lo contrario Informedness. Si desea utilizar Kappa y creo que ambos evaluadores deben tener la misma distribución de uso Fleiss, pero normalmente se desea permitir que ellos tienen sus propias escalas y el uso de Cohen. No sé de ningún ejemplo en AC1 daría una más adecuada respuesta, pero en general los imprevisibles resultados vienen a causa de los desajustes entre los sesgos/prevalencias de los dos evaluadores de la clase de opciones. Cuando sesgo=prevalencia=0.5 todas las medidas están de acuerdo, cuando las medidas de acuerdo es que su hipótesis que determinar lo que es apropiado, y las pautas que se han dado a reflejar la correspondiente hipótesis.
Esta Agua ejemplo se originó en...
Jim Entwisle y David M. W. Poderes (1998), "El Uso de la Estadística en la Evaluación de la PNL Analizadores", pp215-224, NeMLaP3/CoNLL98 Conferencia Conjunta, Sydney, enero de 1998. - debe de ser citados por todas las casas de Apuestas teoría/historia propósito.
http://david.wardpowers.info/Research/AI/papers/199801a-CoNLL-USE.pdf
http://dl.dropbox.com/u/27743223/199801a-CoNLL-USE.pdf
Informedness y Markedness frente Kappa se explican en...
David M. W. Poderes (2012). "El Problema con Kappa". Conferencia del Capítulo Europeo de la Association for Computational Linguistics (EACL2012) Conjunto de ROBUS-UNSUP Taller. - citan para el trabajo mediante Informedness o Kappa en una PNL/CL contexto.
http://aclweb.org/anthology-new/E/E12/E12-1035.pdf
http://dl.dropbox.com/u/27743223/201209-eacl2012-Kappa.pdf