47 votos

Cálculo de la varianza Kappa de Cohen (y errores estándar)

El Kappa ( $\kappa$ ) fue introducido en 1960 por Cohen [1] para medir el acuerdo entre dos calificadores. Sin embargo, su varianza ha sido fuente de contradicciones durante bastante tiempo.

Mi pregunta es sobre cuál es el mejor cálculo de la varianza que se puede utilizar con muestras grandes. Me inclino a creer que el probado y verificado por Fleiss [2] sería la opción correcta, pero no parece ser el único publicado que parece ser correcto (y utilizado en toda la literatura bastante reciente).

En este momento tengo dos formas concretas de calcular su varianza asintótica de gran muestra:

  • El método corregido publicado por Fleiss, Cohen y Everitt [2];
  • El método delta que se puede encontrar en el libro de Colgaton, 2009 [4] (página 106).

Para ilustrar parte de esta confusión, he aquí una cita de Fleiss, Cohen y Everitt [2], el énfasis es mío:

Muchos emprendimientos humanos han sido maldecidos con repetidos fracasos antes de éxito final. La escalada del Monte Everest es un ejemplo. El descubrimiento del Paso del Noroeste es un segundo. El La derivación de un error estándar correcto para kappa es una tercera .

He aquí un pequeño resumen de lo sucedido:

  • 1960: Cohen publica su artículo "A coefficient of agreement for nominal scales" [1] en el que presenta su medida de acuerdo corregida por el azar entre dos calificadores denominada $\kappa$ . Sin embargo, publica fórmulas incorrectas para los cálculos de la varianza.
  • 1968: Everitt intenta corregirlos, pero sus fórmulas también eran incorrectas.
  • 1969: Fleiss, Cohen y Everitt publican las fórmulas correctas en el artículo "Large Sample Standard Errors Of Kappa and Weighted Kappa" [2].
  • 1971: Fleiss publica otro $\kappa$ estadística (pero diferente) con el mismo nombre, con fórmulas incorrectas para las varianzas.
  • 1979: Fleiss Nee y Landis publican las fórmulas corregidas de la $\kappa$ .

En primer lugar, considere la siguiente notación. Esta notación implica que el operador de suma debe aplicarse a todos los elementos de la dimensión sobre la que se coloca el punto:

$\ \ \ p_{i.} = \displaystyle\sum_{j=1}^{k} p_{ij}$ $\ \ \ p_{.j} = \displaystyle\sum_{i=1}^{k} p_{ij}$

Ahora, se puede calcular Kappa como

$\ \ \ \hat\kappa = \displaystyle\frac{p_o-p_c}{1-p_e}$

En el que

$\ \ \ p_o = \displaystyle\sum_{i=1}^{k} p_{ii}$ es el acuerdo observado, y

$\ \ \ p_c = \displaystyle\sum_{i=1}^{k} p_{i.} p_{.i}$ es el acuerdo de la oportunidad.

Hasta el momento, el cálculo correcto de la varianza para el $\kappa$ está dada por:

$\ \ \ \newcommand{\var}{\mathrm{var}}\widehat{\var}(\hat{\kappa}) = \frac{1}{N(1-p_c)^4} \{ \displaystyle\sum_{i=1}^{k} p_{ii}[(1-p_o) - (p_{.i} + p_{i.})(1-p_o)]^2 \\ \ \ \ + (1-p_o)^2 \displaystyle\sum_{i=1}^{k} \displaystyle\sum_{j=1 \atop i\not=j}^{k} p_{ij} (p_{.i} + p_{j.})^2 - (p_op_c-2p_c+p_o)^2 \} $

y bajo la hipótesis nula viene dada por:

$\ \ \ \widehat{\var}(\hat{\kappa}) = \frac{1}{N(1-p_c)^2} \{ \displaystyle\sum_{i=1}^{k} p_{.i}p_{i.} [1- (p_{.i} + p_{i.})^2] + \displaystyle\sum_{i=1}^{k} \displaystyle\sum_{j=1, i\not=j}^{k} p_{.i}p_{j.}(p_{.i} + p_{j.})^2 - p_c^2 \} $

El método de Congalton parece basarse en el método delta para obtener las varianzas (Agresti, 1990; Agresti, 2002); sin embargo, no estoy seguro de qué es el método delta ni de por qué hay que utilizarlo. El $\kappa$ la varianza, bajo este método, viene dada por:

$\ \ \ \widehat{\var}(\hat{\kappa}) = \frac{1}{n} \{ \frac{\theta_1 (1-\theta_1)}{(1-\theta_2)^2} + \frac{2(1-\theta_1)(2\theta_1\theta_2-\theta_3)}{(1-\theta_2)^3} + \frac{(1-\theta_1)^2(\theta_4-4\theta_2^2)}{(1-\theta_2)^4} \} $

en el que

$\ \ \ \theta_1 = \frac{1}{n} \displaystyle\sum_{i=1}^{k} n_{ii}$

$\ \ \ \theta_2 = \frac{1}{n^2} \displaystyle\sum_{i=1}^{k} n_{i+}n_{+i}$

$\ \ \ \theta_3 = \frac{1}{n^2} \displaystyle\sum_{i=1}^{k} n_{ii}(n_{i+} + n_{+i})$

$\ \ \ \theta_4 = \frac{1}{n^3} \displaystyle\sum_{i=1}^{k} \displaystyle\sum_{j=1}^{k} n_{ij}(n_{j+} + n_{+i})^2$

(Congalton utiliza un $+$ en lugar de un subíndice $.$ pero parece significar lo mismo. Además, estoy suponiendo que $n_{ij}$ debe ser una matriz de recuento, es decir, la matriz de confusión antes de ser dividida por el número de muestras según la fórmula $p_{ij} = \frac{n_{ij}}{\mathrm{samples}}$ )

Otra parte extraña es que el libro de Colgaton parece hacer referencia al artículo original de Cohen, pero no parece citar las correcciones de la varianza de Kappa publicadas por Fleiss et al, no hasta que pasa a hablar del Kappa ponderado. ¿Quizás su primera publicación fue escrita cuando la verdadera fórmula de kappa aún se perdía en la confusión?

¿Alguien puede explicar el porqué de esas diferencias? ¿O por qué alguien utilizaría la varianza del método delta en lugar de la versión corregida por Fleiss?

[1]: Fleiss, Joseph L.; Cohen, Jacob; Everitt, B. S.; Large sample standard errors of kappa and weighted kappa. Psychological Bulletin, Vol 72(5), Nov 1969, 323-327. doi: 10.1037/h0028106

[2]: Cohen, Jacob (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement 20 (1): 37-46. DOI:10.1177/001316446002000104.

[3]: Alan Agresti, Categorical Data Analysis, 2ª edición. John Wiley and Sons, 2002.

[4]: Russell G. Congalton y Green, K.; Assessing the Accuracy of Remotely Sensed Data: Principles and Practices, 2ª edición. 2009.

9voto

x0n Puntos 26002

No sé cuál de las dos formas de calcular la varianza es la que hay que preferir, pero puedo darte una tercera forma, práctica y útil, de calcular los intervalos de confianza/credibilidad utilizando la estimación bayesiana del Kappa de Cohen.

El R y JAGS genera muestras MCMC de la distribución posterior de los valores creíbles de Kappa dados los datos.

library(rjags)
library(coda)
library(psych)

# Creating some mock data
rater1 <- c(1, 2, 3, 1, 1, 2, 1, 1, 3, 1, 2, 3, 3, 2, 3) 
rater2 <- c(1, 2, 2, 1, 2, 2, 3, 1, 3, 1, 2, 3, 2, 1, 1) 
agreement <- rater1 == rater2
n_categories <- 3
n_ratings <- 15

# The JAGS model definition, should work in WinBugs with minimal modification
kohen_model_string <- "model {
  kappa <- (p_agreement - chance_agreement) / (1 - chance_agreement)
  chance_agreement <- sum(p1 * p2)

  for(i in 1:n_ratings) {
    rater1[i] ~ dcat(p1)
    rater2[i] ~ dcat(p2)
    agreement[i] ~ dbern(p_agreement)
  }

  # Uniform priors on all parameters
  p1 ~ ddirch(alpha)
  p2 ~ ddirch(alpha)
  p_agreement ~ dbeta(1, 1)
  for(cat_i in 1:n_categories) {
    alpha[cat_i] <- 1
  }
}"

# Running the model
kohen_model <- jags.model(file = textConnection(kohen_model_string),
                 data = list(rater1 = rater1, rater2 = rater2,
                   agreement = agreement, n_categories = n_categories,
                   n_ratings = n_ratings),
                 n.chains= 1, n.adapt= 1000)

update(kohen_model, 10000)
mcmc_samples <- coda.samples(kohen_model, variable.names="kappa", n.iter=20000)

El gráfico siguiente muestra un gráfico de densidad de las muestras MCMC de la distribución posterior de Kappa.

Posterior Kappa density

Utilizando las muestras MCMC podemos ahora utilizar el valor de la mediana como una estimación de Kappa y utilizar los cuantiles del 2,5% y del 97,5% como un intervalo de confianza/creencia del 95%.

summary(mcmc_samples)$quantiles
##      2.5%        25%        50%        75%      97.5% 
## 0.01688361 0.26103573 0.38753814 0.50757431 0.70288890 

Compárese con las estimaciones "clásicas" calculadas según Fleiss, Cohen y Everitt:

cohen.kappa(cbind(rater1, rater2), alpha=0.05)
##                  lower estimate upper
## unweighted kappa  0.041     0.40  0.76

Personalmente preferiría el intervalo de confianza bayesiano sobre el intervalo de confianza clásico, especialmente porque creo que el intervalo de confianza bayesiano tiene mejores propiedades en muestras pequeñas. Una preocupación común que suele tener la gente con los análisis bayesianos es que hay que especificar creencias previas sobre las distribuciones de los parámetros. Afortunadamente, en este caso, es fácil construir priores "objetivos" simplemente poniendo distribuciones uniformes sobre todos los parámetros. Esto debería hacer que el resultado del modelo bayesiano sea muy similar a un cálculo "clásico" del coeficiente Kappa.

Referencias

Sanjib Basu, Mousumi Banerjee y Ananda Sen (2000). Bayesian Inference for Kappa from Single and Multiple Studies. Biometría , Vol. 56, No. 2 (Jun., 2000), pp. 577-582

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X