7 votos

Inter-rater estadística para sesgada rankings

Tengo varios conjuntos de 10 evaluadores que quiero comparar.

Cada evaluador puede emitir sólo o No votar, sin embargo, esta decisión está torcida y el votos a hacer sólo el 10% de todos los votos (y esto es el esperado, es decir, la proporción de esa cantidad es objetivamente verdadero).

Que de la inter-rater de acuerdo las estadísticas sería adecuado en este caso?

4voto

Heather Puntos 21

Una medida que se baja cuando muy sesgada evaluadores de acuerdo es en realidad altamente deseable. Gwet del AC1 específicamente asume que la posibilidad de acuerdo debe ser en más de un 50%, pero si ambos evaluadores voto +ve el 90% del tiempo, Cohen y Fleiss/Scott dice que la probabilidad de acuerdo es de 81% en los aspectos positivos y 1% en los negativos para un total de 82% espera precisión.

Este es precisamente el tipo de sesgo que necesita ser eliminado. Una tabla de contingencia de

81 9
9 1

representa la oportunidad de nivel de rendimiento. Fleiss y Cohen Kappa y la Correlación de 0 pero AC1 es engañosa, el 89%. Por supuesto, volvemos a ver la precisión del 82% y también ver Recall y Precisión y F-measue de 90%, si consideramos que en estas condiciones...

Considere dos evaluadores, de los cuales uno es un lingüista que da muy confiable parte del discurso calificaciones sustantivo frente verbo decir, y el otro de los cuales es sin saberlo, un programa de ordenador que es tan desesperada que sólo conjeturas.

Dado que el agua es un sustantivo 90% del tiempo, el lingüista dice sustantivo 90% del tiempo y verbo el 10% del tiempo.

Una forma de adivinación es la etiqueta de palabras con sus más frecuentes de la parte de habla, el otro es adivinar las diferentes partes del discurso con probabilidad dada por su frecuencia. Este último "prevalencia de sesgo de" enfoque será calificado con 0 por todos los Kappa y la Correlación de las medidas, así como DeltaP, DeltaP', Informedness y Markedness (que son los coeficientes de regresión que dar una direccional de predicción de datos, y cuya media geométrica es el de Correlación de Matthews). Corresponde a la tabla de arriba.

El "más frecuentes" parte de la oración al azar tagger da la siguiente tabla de 100 palabras:

90 10
0 0

Que se predice correctamente todos los 90, el lingüista los nombres, pero ninguno de los 10 verbos.
Todos los Kappas y Correlaciones, y Informedness, dar a este 0, pero AC1 le da un engañosa 81%.

Informedness está dando la probabilidad de que el tagger es tomar una decisión informada, que es cuál es la proporción del tiempo que se toma de una decisión informada, y devuelve correctamente no.

Por otro lado, Markedness es estimar qué proporción de tiempo que el lingüista está correctamente marcado de la palabra, y se subestima el 40%. Si consideramos que este en términos de la precisión y el recall del programa, tenemos una Precisión de 90% (tenemos el 10% de malo que son los verbos), pero ya que solo tenemos en cuenta los nombres, tenemos un Recuerdo de 100% (nos sale a todos ellos como el equipo siempre se adivina el nombre). Pero Inversa Recordar es 0, y la Inversa de Precisión no está definido como el ordenador hace que no ve las predicciones (considere el problema inverso donde el verbo es la +ve la clase, de modo que la computadora no es siempre la predicción de la -ve como la más frecuente de clase).

En el Dicotómica caso (dos clases) tenemos

Informedness = Recall + Inversa De Recuerdo - 1. Markedness = Precisión + Inversa De Precisión - 1. Correlación = GeoMean (Informedness, Markedness).

Respuesta corta - la Correlación es mejor cuando no hay nada que elegir entre los evaluadores, de lo contrario Informedness. Si desea utilizar Kappa y creo que ambos evaluadores deben tener la misma distribución de uso Fleiss, pero normalmente se desea permitir que ellos tienen sus propias escalas y el uso de Cohen. No sé de ningún ejemplo en AC1 daría una más adecuada respuesta, pero en general los imprevisibles resultados vienen a causa de los desajustes entre los sesgos/prevalencias de los dos evaluadores de la clase de opciones. Cuando sesgo=prevalencia=0.5 todas las medidas están de acuerdo, cuando las medidas de acuerdo es que su hipótesis que determinar lo que es apropiado, y las pautas que se han dado a reflejar la correspondiente hipótesis.

Esta Agua ejemplo se originó en...

Jim Entwisle y David M. W. Poderes (1998), "El Uso de la Estadística en la Evaluación de la PNL Analizadores", pp215-224, NeMLaP3/CoNLL98 Conferencia Conjunta, Sydney, enero de 1998. - debe de ser citados por todas las casas de Apuestas teoría/historia propósito. http://david.wardpowers.info/Research/AI/papers/199801a-CoNLL-USE.pdf http://dl.dropbox.com/u/27743223/199801a-CoNLL-USE.pdf

Informedness y Markedness frente Kappa se explican en...

David M. W. Poderes (2012). "El Problema con Kappa". Conferencia del Capítulo Europeo de la Association for Computational Linguistics (EACL2012) Conjunto de ROBUS-UNSUP Taller. - citan para el trabajo mediante Informedness o Kappa en una PNL/CL contexto. http://aclweb.org/anthology-new/E/E12/E12-1035.pdf http://dl.dropbox.com/u/27743223/201209-eacl2012-Kappa.pdf

3voto

mat_geek Puntos 1367

Creo que la mayoría de ellos de la prueba de concordancia frente a la discordancia y así se hace hincapié en el grado con el que los evaluadores están de acuerdo y el hecho de que tienden a votar por el sí, un 10% del tiempo no es un factor. Tamaño de la muestra podría ser, porque aunque si el tamaño de la muestra es pequeño, usted no tendrá muchos sí para comparar entre los votantes. Eso sería un problema para cualquier prueba de acuerdo. Así que si usted puede permitirse decidir sobre un número de votos por el sí a usted le gustaría ver en el promedio para cada votante. Si que es de 50 tome 500 muestras para ser calificado. Sin duda, la estadística Kappa estaría bien que esta igual que la mayoría de los demás.

2voto

Momo Puntos 5125

Dado que la asimetría es un problema en tu caso, es posible que desee utilizar el AC1 fiabilidad entre el estadístico propuesto por Gwet (2001, 2002). Ver, por ejemplo, Gwet de 2008. Se trata de un "más robusto oportunidad-corregido estadística que se produce constantemente en la fiabilidad de los resultados" en comparación con la $\kappa$.

El $\kappa$ estadísticas puede ser problemático, porque "es efectuado por distribuciones sesgadas de las categorías (la prevalencia del problema) y por el grado en que los codificadores de acuerdo (el problema de polarización)" (DiEugenio & Vidrio, 2004). O como Feinstein y Cicchetti (1990) observó:

En un cuádruple tabla que muestra binario acuerdo de los dos observadores, la proporción observada de acuerdo, P0 puede ser, paradójicamente, alterada por la posibilidad de corrección de relación que crea $\kappa$ como índice de la concordancia. En una paradoja, un alto valor de P0 puede ser drásticamente reducido por un gran desequilibrio en la tabla marginales totales, ya sea en vertical o en horizontal. En el segundo pardox, (sic) $\kappa$ será mayor con un asimétrica en lugar de simétrica desequilibrio en los totales marginales, y con el imperfecto en lugar de perfecta simetría en el desequilibrio. Un ajuste que sustituye Kmax para $\kappa$ no reparar cualquier problema, y parece hacer el segundo peor.

(énfasis añadido)

Referencias:

DiEugenio, Barbara & Glass, Michael (2004). La estadística kappa: una segunda mirada. La Lingüística Computacional 30(1).

Feinstein, Alvan R. & Cicchetti, Domenic V. (1990). Acuerdo alto, pero bajo kappa: I. Los problemas de dos paradojas. Revista de Epidemiología Clínica 43(6): 543-549.

Gwet, Kilem (2001). Manual de Confiabilidad Inter-Evaluador: Cómo Estimar el Nivel de Acuerdo Entre Dos o Varios Evaluadores. Gaithersburg, MD, STATAXIS Editorial

Gwet, Kilem (2002). La Confiabilidad Inter-Evaluador: Dependencia Rasgo de la Prevalencia y de Homogeneidad Marginal. Métodos estadísticos para la Confiabilidad Inter-Evaluador de Evaluación 2.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X