Yo estoy usando el índice de Kappa de Cohen para calcular el inter-acuerdo entre dos jueces.
Se calcula como:
$ \frac{P(A) - P(E)}{1 - P(E)} $
donde $P(A)$ es la proporción de acuerdo y $P(E)$ la probabilidad de acuerdo por casualidad.
Ahora a por el siguiente conjunto de datos, puedo obtener los resultados esperados:
User A judgements:
- 1, true
- 2, false
User B judgements:
- 1, false
- 2, false
Proportion agreed: 0.5
Agreement by chance: 0.625
Kappa for User A and B: -0.3333333333333333
Podemos ver que tanto los jueces no han aceptado muy bien. Sin embargo, en el caso siguiente, donde tanto los jueces evaluar criterios, kappa evalúa a cero:
User A judgements:
- 1, false
User B judgements:
- 1, false
Proportion agreed: 1.0
Agreement by chance: 1.0
Kappa for User A and B: 0
Ahora puedo ver que el acuerdo por azar es obviamente 1, que conduce a la kappa de ser cero, pero, ¿esto cuenta como un resultado fiable? El problema es que normalmente no tienen más de dos sentencias de acuerdo con los criterios, de modo que éstos nunca evaluar a cualquier kappa mayor que 0, que creo que no es muy representativo.
Estoy bien con mis cálculos? ¿Puedo utilizar otro método para calcular la inter-acuerdo?
Aquí podemos ver que el kappa funciona bien para múltiples sentencias:
User A judgements:
- 1, false
- 2, true
- 3, false
- 4, false
- 5, true
User A judgements:
- 1, true
- 2, true
- 3, false
- 4, true
- 5, false
Proportion agreed: 0.4
Agreement by chance: 0.5
Kappa for User A and B: -0.19999999999999996