Tengo un conjunto de datos de 11,000+ artículos distintos, cada uno de los cuales se clasifican en una escala nominal de por lo menos 3 diferentes evaluadores en Amazon Mechanical Turk.
88 diferentes evaluadores siempre juicios para la tarea, y no un evaluador completado más cerca de 800 juicios. La mayoría proporciona significativamente menos que eso.
Mi pregunta es la siguiente:
Quiero calcular alguna medida de la confiabilidad inter-evaluador de las calificaciones, algo mejor que una simple mirada a un consenso. Creo, sin embargo, que de Kappa de Fleiss, que es la medida que mejor conozco, requeriría un consistente grupo de evaluadores para todo el conjunto de elementos, y por lo tanto no puedo usar Kappa de Fleiss para comprobar TIR con mis datos. Es esto correcto? Hay otro método que podría utilizar?
Cualquier consejo sería muy apreciada!