25 votos

¿Es el post de Joel Spolsky "Hunting of the Snark" un análisis de contenido estadístico válido?

Si ha estado leyendo los boletines comunitarios últimamente, es probable que haya visto La caza del Snark, un artículo de Joel Spolsky en el blog oficial de StackExchange, director general de la red StackExchange. Habla de un análisis estadístico realizado sobre una muestra de comentarios de SE para evaluar su "amabilidad" desde la perspectiva de un usuario externo. Los comentarios se extrajeron aleatoriamente de StackOverflow y los analistas de contenidos eran miembros de la comunidad Mechanical Turk de Amazon, una mercado de trabajo que pone en contacto a empresas con trabajadores que realizan pequeñas tareas de corta duración por tarifas asequibles.

No hace mucho tiempo, yo era estudiante de posgrado en ciencias políticas y una de las clases que tomé fue Análisis estadístico del contenido . El proyecto final de la clase, de hecho todo su propósito, era llevar a cabo un análisis detallado de los reportajes de guerra del New York Times, para comprobar si muchas de las suposiciones que hacen los estadounidenses sobre la cobertura informativa durante las guerras eran correctas (spoiler: las pruebas sugieren que no lo son). El proyecto era enorme y bastante divertido, pero su parte más dolorosa fue, con diferencia, la "fase de pruebas de formación y fiabilidad", que tuvo lugar antes de que pudiéramos realizar el análisis completo. Tenía dos propósitos (véase la página 9 del documento enlazado para una descripción detallada, así como referencias a las normas de fiabilidad entre codificadores en la literatura estadística sobre análisis de contenido):

  1. Confirmar que todos los codificadores, es decir, los lectores del contenido, recibieron formación sobre las mismas definiciones cualitativas. En el análisis de Joel, esto significaba que todos sabrían exactamente cómo definía el proyecto "amistoso" y "poco amistoso".

  2. Confirmamos que todos los codificadores interpretaban estas reglas de forma fiable, es decir, muestreamos nuestra muestra, analizamos el subconjunto y luego demostramos estadísticamente que nuestras correlaciones por pares en las evaluaciones cualitativas eran bastante similares.

Las pruebas de fiabilidad dolían porque teníamos que hacerlas tres o cuatro veces. Hasta que -1- no se cerró y -2- no mostró correlaciones por pares suficientemente altas, nuestros resultados para el análisis completo eran sospechosos. No se podía demostrar si eran válidos o inválidos. Y lo que es más importante, tuvimos que hacer pruebas piloto de fiabilidad antes del conjunto de muestras definitivo.

Mi pregunta es la siguiente: El análisis estadístico de Joel carecía de una prueba piloto de fiabilidad y no establecía ninguna definición operativa de "amabilidad". ¿Eran los datos finales lo bastante fiables como para decir algo sobre la validez estadística de sus resultados?

Para tener una perspectiva, considere este manual sobre la valor de la fiabilidad entre codificadores y de la coherencia de las definiciones operativas. Desde más adentro de la misma fuente, puede leer sobre las pruebas piloto de fiabilidad (punto 5 de la lista).

Siguiendo la sugerencia de Andy W. en su respuesta, estoy intentando calcular una serie de estadísticas de fiabilidad en el conjunto de datos, que es el siguiente disponible aquí, utilizando este serie de comandos en R (actualizado a medida que calculo nuevas estadísticas).

Las estadísticas descriptivas están aquí

Porcentaje de acuerdo (con tolerancia = 0): 0.0143

Porcentaje de acuerdo (con tolerancia = 1): 11.8

Alfa de Krippendorff: 0.1529467

También intenté un modelo ítem-respuesta para estos datos en otra pregunta.

7voto

Judioo Puntos 625

La fiabilidad de las puntuaciones suele interpretarse en términos de Teoría clásica de las pruebas . Aquí uno tiene una verdadera puntuación, X pero lo que se observa en cualquier resultado concreto no es sólo la puntuación verdadera, sino la puntuación verdadera con algún error (es decir. Observed = X + error ). En teoría, al tomar múltiples medidas observadas de la misma prueba subyacente (haciendo algunas suposiciones sobre la distribución de los errores de esas pruebas) se puede entonces medir la puntuación real no observada.

Tenga en cuenta aquí en este marco que tiene asumir que sus múltiples medidas observadas miden la misma prueba subyacente. La escasa fiabilidad de los ítems de un test suele considerarse una prueba de que las medidas observadas no miden el mismo test subyacente. Sin embargo, esto es sólo una convención del campo, la baja fiabilidad, en sí misma, no prueba (en ningún sentido estadístico) que los ítems no midan el mismo constructo. Así que se podría argumentar que tomando muchas medidas observadas, incluso con pruebas muy poco fiables, se podría llegar a una medida fiable de la puntuación verdadera.

También hay que mencionar que la teoría clásica de los tests no es necesariamente la única forma de interpretarlos, y muchos estudiosos argumentarían que el concepto de variables latentes y de teoría del ítem-respuesta es siempre más apropiada que la teoría de la prueba clásica.


Otro supuesto implícito similar en la teoría clásica de los tests es cuando la gente dice que las fiabilidades son demasiado altas. No dice nada sobre la validez de si un ítem concreto mide alguna prueba subyacente, sino que cuando las fiabilidades son demasiado altas los investigadores lo toman como una prueba de que los errores entre las pruebas no son independientes.

No sé muy bien por qué se muestra tan vehemente por no entrar a calcular usted mismo las fiabilidades. ¿Por qué no hacerlo e interpretar posteriormente el análisis a la luz de esta información adicional?

7voto

ER17 Puntos 1

Porcentaje de acuerdo (con tolerancia = 0): 0.0143

Porcentaje de acuerdo (con tolerancia = 1): 11.8

Alfa de Krippendorff: 0.1529467

Estas medidas de acuerdo indican que prácticamente no hay acuerdo categorial: cada codificador tiene su propio punto de corte interno para juzgar los comentarios como "amistosos" o "poco amistosos".

Si suponemos que las tres categorías están ordenadas, es decir: Antipático < Neutral < Amistoso, también podemos calcular la correlación intraclase como otra medida de concordancia. En una muestra aleatoria de 1000 comentarios, hay una CCI (2,1) de .28, y una CCI (2, k) de .88. Es decir, si sólo se tomara uno de los 20 calificadores, los resultados serían muy poco fiables (.28), si se toma la media de los 20 calificadores, los resultados son fiables (.88). Si se toman diferentes combinaciones de tres calificadores aleatorios, la fiabilidad media se sitúa entre 0,50 y 0,60, lo que seguiría considerándose demasiado bajo.

La correlación bivariada media entre dos codificadores es de 0,34, también bastante baja.

Si estas medidas de acuerdo se consideran una medida de la calidad de los codificadores (que en realidad deberían mostrar un buen acuerdo), la respuesta es: no son buenos codificadores y deberían estar mejor formados. Si se consideran como una medida de "cómo de bueno es el acuerdo espontáneo entre personas al azar", la respuesta también es: no muy alto. Como referencia, la correlación media de las valoraciones del atractivo físico se sitúa entre 0,47 y 0,71 [1].

[1] Langlois, J. H., Kalakanis, L., Rubenstein, A. J., Larson, A., Hallam, M., & Smoot, M. (2000). ¿Máximas o mitos de la belleza? A meta-analytic and theoretical review. Psychological Bulletin, 126, 390-423. doi:10.1037/0033-2909.126.3.390

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X