Inter-rater confiabilidad con muchos evaluadores no superpuestos

Question

Inter-rater confiabilidad con muchos evaluadores no superpuestos

Preguntado el 24 de Agosto, 2011: Cuando se hizo la pregunta
512 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Tengo un conjunto de datos de 11,000+ artículos distintos, cada uno de los cuales se clasifican en una escala nominal de por lo menos 3 diferentes evaluadores en Amazon Mechanical Turk.

88 diferentes evaluadores siempre juicios para la tarea, y no un evaluador completado más cerca de 800 juicios. La mayoría proporciona significativamente menos que eso.

Mi pregunta es la siguiente:

Quiero calcular alguna medida de la confiabilidad inter-evaluador de las calificaciones, algo mejor que una simple mirada a un consenso. Creo, sin embargo, que de Kappa de Fleiss, que es la medida que mejor conozco, requeriría un consistente grupo de evaluadores para todo el conjunto de elementos, y por lo tanto no puedo usar Kappa de Fleiss para comprobar TIR con mis datos. Es esto correcto? Hay otro método que podría utilizar?

Cualquier consejo sería muy apreciada!

Preguntado el 24 de Agosto, 2011 por Judd Antin

Answer 1

2 Respuestas

Answer 2

3voto

ynagar Puntos 43

Retirar el alfa de Krippendorff. Tiene varias ventajas sobre otras medidas tales como el índice de Kappa de Cohen, índice de Kappa de Fleiss, el alfa de Cronbach: es resistente a la falta de datos (que deduzco que es la principal preocupación que tiene); es capaz de trabajar con más de 2 evaluadores; y puede manejar diferentes tipos de escalas: nominal, ordinal, etc. También representa la oportunidad de convenios mejor que algunas otras medidas como el índice de Kappa de Cohen.

Cálculo de alfa de Krippendorff es apoyado por varios paquetes de software de estadística, incluyendo el R (por el tir paquete), SPSS, etc.

A continuación son algunos de los documentos pertinentes, que el alfa de Krippendorff, incluyendo sus propiedades y su aplicación, y se la compara con otras medidas:

Hayes, A. F., & Krippendorff, K. (2007). La respuesta a la llamada de un estándar de fiabilidad de la medida para la codificación de datos. Los Métodos de comunicación y Medidas, 1(1), 77-89.
Krippendorff, K. (2004). Fiabilidad en el Análisis de Contenido: Algunos de los errores más Comunes y Recomendaciones. La Comunicación Humana De La Investigación, 30(3), 411-433. doi: 10.1111/j.1468-2958.2004.tb00738.x
Capítulo 3 en Krippendorff, K. (2013). Análisis de contenido: Una Introducción a Su Metodología (3ª ed.): La salvia.

Hay algunos otros documentos técnicos en Krippendorff del sitio web

Respondido el 13 de Enero, 2015 por ynagar (43 Puntos )

Answer 3

2voto

StasK Puntos 19497

Si usted sólo tiene que convencer a ti mismo (en lugar de informar sobre el número de la otra parte), que podría caber una cruz-clasificados jerárquica/modelo mixto, con elementos y evaluadores de ser dos de los efectos aleatorios. A continuación, la correlación intraclase para los evaluadores es [la varianza de los evaluadores' efecto aleatorio]/[varianza de los evaluadores' efecto aleatorio + varianza de los elementos' efecto aleatorio + (varianza de la distribución logística = $\pi^2/3$ )]. Una aplicación específica depende de la plataforma computacional que se utiliza, el valor predeterminado en la CV es R, por lo que se estaría usando nlme , pero puede que tenga algo diferente como SPSS o Stata.

Respondido el 24 de Agosto, 2011 por StasK (19497 Puntos )

Inter-rater confiabilidad con muchos evaluadores no superpuestos

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Inter-rater confiabilidad con muchos evaluadores no superpuestos

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: