8 votos

¿Puede utilizar uno Cohen ' s Kappa para dos juicios sólo?

Yo estoy usando el índice de Kappa de Cohen para calcular el inter-acuerdo entre dos jueces.

Se calcula como:

$ \frac{P(A) - P(E)}{1 - P(E)} $

donde $P(A)$ es la proporción de acuerdo y $P(E)$ la probabilidad de acuerdo por casualidad.

Ahora a por el siguiente conjunto de datos, puedo obtener los resultados esperados:

User A judgements: 
  - 1, true
  - 2, false
User B judgements: 
  - 1, false
  - 2, false
Proportion agreed: 0.5
Agreement by chance: 0.625
Kappa for User A and B: -0.3333333333333333

Podemos ver que tanto los jueces no han aceptado muy bien. Sin embargo, en el caso siguiente, donde tanto los jueces evaluar criterios, kappa evalúa a cero:

User A judgements: 
  - 1, false
User B judgements: 
  - 1, false
Proportion agreed: 1.0
Agreement by chance: 1.0
Kappa for User A and B: 0

Ahora puedo ver que el acuerdo por azar es obviamente 1, que conduce a la kappa de ser cero, pero, ¿esto cuenta como un resultado fiable? El problema es que normalmente no tienen más de dos sentencias de acuerdo con los criterios, de modo que éstos nunca evaluar a cualquier kappa mayor que 0, que creo que no es muy representativo.

Estoy bien con mis cálculos? ¿Puedo utilizar otro método para calcular la inter-acuerdo?

Aquí podemos ver que el kappa funciona bien para múltiples sentencias:

User A judgements: 
  - 1, false
  - 2, true
  - 3, false
  - 4, false
  - 5, true
User A judgements: 
  - 1, true
  - 2, true
  - 3, false
  - 4, true
  - 5, false
Proportion agreed: 0.4
Agreement by chance: 0.5
Kappa for User A and B: -0.19999999999999996

10voto

pauly Puntos 932

Me parece caracal respuesta convincente, pero también creo que la Kappa de Cohen sólo puede dar cuenta de parte de lo que constituye la fiabilidad entre los evaluadores. El simple % de calificaciones de acuerdo cuentas por otra parte, y la correlación entre las calificaciones, una tercera. Lleva todos los tres métodos para obtener una imagen completa. Para más detalles por favor consulte http://pareonline.net/getvn.asp?v=9&n=4 :

"[...] la práctica general de la describir la fiabilidad entre los evaluadores como un único, unificado concepto es, en el mejor impreciso, y en el peor potencialmente engañoso".

4voto

ashwnacharya Puntos 3144

La "posibilidad de corrección" en Cohen $\kappa$ estimaciones de las probabilidades con que cada evaluador elige las categorías existentes. La estimación proviene de la marginal de frecuencias de las categorías. Cuando sólo tienes 1 juicio para cada evaluador, esto significa que $\kappa$ asume la categoría elegida para este juicio, en general, tiene una probabilidad de 1. Obviamente, esto no tiene sentido ya que el número de sentencias (1) es demasiado pequeña para estimar de manera confiable la base de las tasas de todas las categorías.

Una alternativa podría ser un simple modelo binomial: sin información adicional, podemos asumir que la probabilidad de un acuerdo entre los dos evaluadores para un juicio es de 0,5 ya que los juicios son binarias. Esto significa que implícitamente asume que tanto los evaluadores de selección de cada categoría con una probabilidad de 0.5 para todos los criterios. El número de acuerdos esperados por casualidad sobre todos los criterios, a continuación, sigue una distribución binomial con $p=0.5$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X