9 votos

Inter-rater confiabilidad con muchos evaluadores no superpuestos

Tengo un conjunto de datos de 11,000+ artículos distintos, cada uno de los cuales se clasifican en una escala nominal de por lo menos 3 diferentes evaluadores en Amazon Mechanical Turk.

88 diferentes evaluadores siempre juicios para la tarea, y no un evaluador completado más cerca de 800 juicios. La mayoría proporciona significativamente menos que eso.

Mi pregunta es la siguiente:

Quiero calcular alguna medida de la confiabilidad inter-evaluador de las calificaciones, algo mejor que una simple mirada a un consenso. Creo, sin embargo, que de Kappa de Fleiss, que es la medida que mejor conozco, requeriría un consistente grupo de evaluadores para todo el conjunto de elementos, y por lo tanto no puedo usar Kappa de Fleiss para comprobar TIR con mis datos. Es esto correcto? Hay otro método que podría utilizar?

Cualquier consejo sería muy apreciada!

3voto

ynagar Puntos 43

Retirar el alfa de Krippendorff. Tiene varias ventajas sobre otras medidas tales como el índice de Kappa de Cohen, índice de Kappa de Fleiss, el alfa de Cronbach: es resistente a la falta de datos (que deduzco que es la principal preocupación que tiene); es capaz de trabajar con más de 2 evaluadores; y puede manejar diferentes tipos de escalas: nominal, ordinal, etc. También representa la oportunidad de convenios mejor que algunas otras medidas como el índice de Kappa de Cohen.

Cálculo de alfa de Krippendorff es apoyado por varios paquetes de software de estadística, incluyendo el R (por el tir paquete), SPSS, etc.

A continuación son algunos de los documentos pertinentes, que el alfa de Krippendorff, incluyendo sus propiedades y su aplicación, y se la compara con otras medidas:

  1. Hayes, A. F., & Krippendorff, K. (2007). La respuesta a la llamada de un estándar de fiabilidad de la medida para la codificación de datos. Los Métodos de comunicación y Medidas, 1(1), 77-89.

  2. Krippendorff, K. (2004). Fiabilidad en el Análisis de Contenido: Algunos de los errores más Comunes y Recomendaciones. La Comunicación Humana De La Investigación, 30(3), 411-433. doi: 10.1111/j.1468-2958.2004.tb00738.x

  3. Capítulo 3 en Krippendorff, K. (2013). Análisis de contenido: Una Introducción a Su Metodología (3ª ed.): La salvia.

Hay algunos otros documentos técnicos en Krippendorff del sitio web

2voto

StasK Puntos 19497

Si usted sólo tiene que convencer a ti mismo (en lugar de informar sobre el número de la otra parte), que podría caber una cruz-clasificados jerárquica/modelo mixto, con elementos y evaluadores de ser dos de los efectos aleatorios. A continuación, la correlación intraclase para los evaluadores es [la varianza de los evaluadores' efecto aleatorio]/[varianza de los evaluadores' efecto aleatorio + varianza de los elementos' efecto aleatorio + (varianza de la distribución logística = $\pi^2/3$)]. Una aplicación específica depende de la plataforma computacional que se utiliza, el valor predeterminado en la CV es R, por lo que se estaría usando nlme , pero puede que tenga algo diferente como SPSS o Stata.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X