El Kappa ( $\kappa$ ) fue introducido en 1960 por Cohen [1] para medir el acuerdo entre dos calificadores. Sin embargo, su varianza ha sido fuente de contradicciones durante bastante tiempo.
Mi pregunta es sobre cuál es el mejor cálculo de la varianza que se puede utilizar con muestras grandes. Me inclino a creer que el probado y verificado por Fleiss [2] sería la opción correcta, pero no parece ser el único publicado que parece ser correcto (y utilizado en toda la literatura bastante reciente).
En este momento tengo dos formas concretas de calcular su varianza asintótica de gran muestra:
- El método corregido publicado por Fleiss, Cohen y Everitt [2];
- El método delta que se puede encontrar en el libro de Colgaton, 2009 [4] (página 106).
Para ilustrar parte de esta confusión, he aquí una cita de Fleiss, Cohen y Everitt [2], el énfasis es mío:
Muchos emprendimientos humanos han sido maldecidos con repetidos fracasos antes de éxito final. La escalada del Monte Everest es un ejemplo. El descubrimiento del Paso del Noroeste es un segundo. El La derivación de un error estándar correcto para kappa es una tercera .
He aquí un pequeño resumen de lo sucedido:
- 1960: Cohen publica su artículo "A coefficient of agreement for nominal scales" [1] en el que presenta su medida de acuerdo corregida por el azar entre dos calificadores denominada $\kappa$ . Sin embargo, publica fórmulas incorrectas para los cálculos de la varianza.
- 1968: Everitt intenta corregirlos, pero sus fórmulas también eran incorrectas.
- 1969: Fleiss, Cohen y Everitt publican las fórmulas correctas en el artículo "Large Sample Standard Errors Of Kappa and Weighted Kappa" [2].
- 1971: Fleiss publica otro $\kappa$ estadística (pero diferente) con el mismo nombre, con fórmulas incorrectas para las varianzas.
- 1979: Fleiss Nee y Landis publican las fórmulas corregidas de la $\kappa$ .
En primer lugar, considere la siguiente notación. Esta notación implica que el operador de suma debe aplicarse a todos los elementos de la dimensión sobre la que se coloca el punto:
$\ \ \ p_{i.} = \displaystyle\sum_{j=1}^{k} p_{ij}$ $\ \ \ p_{.j} = \displaystyle\sum_{i=1}^{k} p_{ij}$
Ahora, se puede calcular Kappa como
$\ \ \ \hat\kappa = \displaystyle\frac{p_o-p_c}{1-p_e}$
En el que
$\ \ \ p_o = \displaystyle\sum_{i=1}^{k} p_{ii}$ es el acuerdo observado, y
$\ \ \ p_c = \displaystyle\sum_{i=1}^{k} p_{i.} p_{.i}$ es el acuerdo de la oportunidad.
Hasta el momento, el cálculo correcto de la varianza para el $\kappa$ está dada por:
$\ \ \ \newcommand{\var}{\mathrm{var}}\widehat{\var}(\hat{\kappa}) = \frac{1}{N(1-p_c)^4} \{ \displaystyle\sum_{i=1}^{k} p_{ii}[(1-p_o) - (p_{.i} + p_{i.})(1-p_o)]^2 \\ \ \ \ + (1-p_o)^2 \displaystyle\sum_{i=1}^{k} \displaystyle\sum_{j=1 \atop i\not=j}^{k} p_{ij} (p_{.i} + p_{j.})^2 - (p_op_c-2p_c+p_o)^2 \} $
y bajo la hipótesis nula viene dada por:
$\ \ \ \widehat{\var}(\hat{\kappa}) = \frac{1}{N(1-p_c)^2} \{ \displaystyle\sum_{i=1}^{k} p_{.i}p_{i.} [1- (p_{.i} + p_{i.})^2] + \displaystyle\sum_{i=1}^{k} \displaystyle\sum_{j=1, i\not=j}^{k} p_{.i}p_{j.}(p_{.i} + p_{j.})^2 - p_c^2 \} $
El método de Congalton parece basarse en el método delta para obtener las varianzas (Agresti, 1990; Agresti, 2002); sin embargo, no estoy seguro de qué es el método delta ni de por qué hay que utilizarlo. El $\kappa$ la varianza, bajo este método, viene dada por:
$\ \ \ \widehat{\var}(\hat{\kappa}) = \frac{1}{n} \{ \frac{\theta_1 (1-\theta_1)}{(1-\theta_2)^2} + \frac{2(1-\theta_1)(2\theta_1\theta_2-\theta_3)}{(1-\theta_2)^3} + \frac{(1-\theta_1)^2(\theta_4-4\theta_2^2)}{(1-\theta_2)^4} \} $
en el que
$\ \ \ \theta_1 = \frac{1}{n} \displaystyle\sum_{i=1}^{k} n_{ii}$
$\ \ \ \theta_2 = \frac{1}{n^2} \displaystyle\sum_{i=1}^{k} n_{i+}n_{+i}$
$\ \ \ \theta_3 = \frac{1}{n^2} \displaystyle\sum_{i=1}^{k} n_{ii}(n_{i+} + n_{+i})$
$\ \ \ \theta_4 = \frac{1}{n^3} \displaystyle\sum_{i=1}^{k} \displaystyle\sum_{j=1}^{k} n_{ij}(n_{j+} + n_{+i})^2$
(Congalton utiliza un $+$ en lugar de un subíndice $.$ pero parece significar lo mismo. Además, estoy suponiendo que $n_{ij}$ debe ser una matriz de recuento, es decir, la matriz de confusión antes de ser dividida por el número de muestras según la fórmula $p_{ij} = \frac{n_{ij}}{\mathrm{samples}}$ )
Otra parte extraña es que el libro de Colgaton parece hacer referencia al artículo original de Cohen, pero no parece citar las correcciones de la varianza de Kappa publicadas por Fleiss et al, no hasta que pasa a hablar del Kappa ponderado. ¿Quizás su primera publicación fue escrita cuando la verdadera fórmula de kappa aún se perdía en la confusión?
¿Alguien puede explicar el porqué de esas diferencias? ¿O por qué alguien utilizaría la varianza del método delta en lugar de la versión corregida por Fleiss?
[1]: Fleiss, Joseph L.; Cohen, Jacob; Everitt, B. S.; Large sample standard errors of kappa and weighted kappa. Psychological Bulletin, Vol 72(5), Nov 1969, 323-327. doi: 10.1037/h0028106
[2]: Cohen, Jacob (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement 20 (1): 37-46. DOI:10.1177/001316446002000104.
[3]: Alan Agresti, Categorical Data Analysis, 2ª edición. John Wiley and Sons, 2002.
[4]: Russell G. Congalton y Green, K.; Assessing the Accuracy of Remotely Sensed Data: Principles and Practices, 2ª edición. 2009.