Si ha estado leyendo los boletines comunitarios últimamente, es probable que haya visto La caza del Snark, un artículo de Joel Spolsky en el blog oficial de StackExchange, director general de la red StackExchange. Habla de un análisis estadístico realizado sobre una muestra de comentarios de SE para evaluar su "amabilidad" desde la perspectiva de un usuario externo. Los comentarios se extrajeron aleatoriamente de StackOverflow y los analistas de contenidos eran miembros de la comunidad Mechanical Turk de Amazon, una mercado de trabajo que pone en contacto a empresas con trabajadores que realizan pequeñas tareas de corta duración por tarifas asequibles.
No hace mucho tiempo, yo era estudiante de posgrado en ciencias políticas y una de las clases que tomé fue Análisis estadístico del contenido . El proyecto final de la clase, de hecho todo su propósito, era llevar a cabo un análisis detallado de los reportajes de guerra del New York Times, para comprobar si muchas de las suposiciones que hacen los estadounidenses sobre la cobertura informativa durante las guerras eran correctas (spoiler: las pruebas sugieren que no lo son). El proyecto era enorme y bastante divertido, pero su parte más dolorosa fue, con diferencia, la "fase de pruebas de formación y fiabilidad", que tuvo lugar antes de que pudiéramos realizar el análisis completo. Tenía dos propósitos (véase la página 9 del documento enlazado para una descripción detallada, así como referencias a las normas de fiabilidad entre codificadores en la literatura estadística sobre análisis de contenido):
-
Confirmar que todos los codificadores, es decir, los lectores del contenido, recibieron formación sobre las mismas definiciones cualitativas. En el análisis de Joel, esto significaba que todos sabrían exactamente cómo definía el proyecto "amistoso" y "poco amistoso".
-
Confirmamos que todos los codificadores interpretaban estas reglas de forma fiable, es decir, muestreamos nuestra muestra, analizamos el subconjunto y luego demostramos estadísticamente que nuestras correlaciones por pares en las evaluaciones cualitativas eran bastante similares.
Las pruebas de fiabilidad dolían porque teníamos que hacerlas tres o cuatro veces. Hasta que -1- no se cerró y -2- no mostró correlaciones por pares suficientemente altas, nuestros resultados para el análisis completo eran sospechosos. No se podía demostrar si eran válidos o inválidos. Y lo que es más importante, tuvimos que hacer pruebas piloto de fiabilidad antes del conjunto de muestras definitivo.
Mi pregunta es la siguiente: El análisis estadístico de Joel carecía de una prueba piloto de fiabilidad y no establecía ninguna definición operativa de "amabilidad". ¿Eran los datos finales lo bastante fiables como para decir algo sobre la validez estadística de sus resultados?
Para tener una perspectiva, considere este manual sobre la valor de la fiabilidad entre codificadores y de la coherencia de las definiciones operativas. Desde más adentro de la misma fuente, puede leer sobre las pruebas piloto de fiabilidad (punto 5 de la lista).
Siguiendo la sugerencia de Andy W. en su respuesta, estoy intentando calcular una serie de estadísticas de fiabilidad en el conjunto de datos, que es el siguiente disponible aquí, utilizando este serie de comandos en R (actualizado a medida que calculo nuevas estadísticas).
Las estadísticas descriptivas están aquí
Porcentaje de acuerdo (con tolerancia = 0): 0.0143
Porcentaje de acuerdo (con tolerancia = 1): 11.8
Alfa de Krippendorff: 0.1529467
También intenté un modelo ítem-respuesta para estos datos en otra pregunta.