Evaluación y comprobación de la concordancia entre evaluadores con el estadístico kappa en un conjunto de ítems binarios y de tipo Likert?

Question

Evaluación y comprobación de la concordancia entre evaluadores con el estadístico kappa en un conjunto de ítems binarios y de tipo Likert?

Preguntado el 27 de Junio, 2011: Cuando se hizo la pregunta
3025 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Intento calcular las puntuaciones de fiabilidad entre evaluadores para 10 preguntas de encuesta (en las que había 2 evaluadores): siete preguntas son binarias (sí/no) y 3 son preguntas de escala Likert.

¿Debe comprobarse la fiabilidad entre evaluadores en CADA una de las 10 preguntas, o existe una prueba general de fiabilidad entre evaluadores que comprueba la fiabilidad de todas las preguntas a la vez? En caso afirmativo, ¿cuál es?
En el caso de las preguntas binarias, el nivel de acuerdo entre los dos evaluadores es del 70-90% en casi todas las preguntas, aunque la puntuación Kappa suele ser muy baja (0,2- 0,4). ¿Puede ser cierto? (Y si es así, ¿hay alguna prueba más adecuada?)
Por último, ¿se puede utilizar una prueba basada en Kappa en preguntas de escala Likert? En caso negativo, ¿cuál es la prueba correcta de fiabilidad entre evaluadores?

Preguntado el 27 de Junio, 2011 por davr

Answer 1

2 Respuestas

Answer 2

5voto

Eric Davis Puntos 1542

En cuanto a si debe calcular el acuerdo para cada elemento, depende en cierta medida de cómo piense analizar los datos.
- Si tiene previsto calcular puntuaciones de escala (por ejemplo, sumar las respuestas binarias o sumar las respuestas tipo likert) para formar una escala, podría realizar un análisis de fiabilidad de las puntuaciones de escala. En esta situación, es posible que esté empezando a tener suficientes puntos de escala para utilizar otros procedimientos de evaluación de la fiabilidad entre evaluadores que asumen datos numéricos, como la observación del ICC. Su evaluación global de la fiabilidad se centraría entonces en la puntuación de la escala. El análisis de la fiabilidad de los ítems individuales podría entonces utilizarse sólo como un medio para evaluar qué ítems incluir en la escala compuesta (por ejemplo, podría descartar los ítems con un acuerdo particularmente bajo).
- Si desea informar sobre elementos individuales, deberá informar sobre kappa para cada elemento. No obstante, puede resultar útil resumir estos kappas individuales para comunicar rápidamente la fiabilidad general de los ítems (por ejemplo, informar del rango, la media y la sd del kappa entre ítems).
Si no te gustan los valores Kappa que obtienes, no es razón para no utilizar Kappa (disculpas por la triple negativa).
- Puede que sus reglas empíricas para interpretar Kappa sean inadecuadas.
- Otra posibilidad es que los ítems no sean tan fiables (se pueden obtener altos porcentajes de acuerdo cuando las variables están sesgadas, incluso cuando los dos evaluadores no están de acuerdo en qué casos pertenecen a la categoría minoritaria). En general, los ítems individuales van a ser menos fiables que las escalas compuestas; también algunas evaluaciones binarias son bastante claras (por ejemplo, el género), pero en otros casos en los que se pregunta a un juez si un objeto supera algún umbral, las calificaciones podrían ser más fiables si se les pidiera que calificaran en un continuo.
Puede utilizar un kappa ordinal en ítems likert. @chl tiene un excelente debate sobre los problemas y las alternativas aquí .

Respondido el 29 de Julio, 2011 por Eric Davis (1542 Puntos )

Answer 3

1voto

Uri Puntos 111

Tu punto 2. Kappa en torno a 0,4 es en realidad un valor bastante grande que indica una buena concordancia. Kappa alcanza 1 cuando todas las frecuencias no diagonales (que indican desacuerdo) de la tabla son 0. Kappa es aproximadamente 0 cuando las frecuencias diagonales y no diagonales son aproximadamente iguales, lo que indica que el acuerdo se sitúa en el nivel de azar (es decir, 50%). Kappa es negativo cuando prevalece el desacuerdo. Por tanto, sus valores de 0,2-0,4 no son "pobres" y, probablemente, correspondan correctamente a sus porcentajes.

Tu punto 3. Kappa es para datos categóricos, nominales u ordinales. Podrías tratar tu escala Likert como ordinal. Pero si la trata como una escala de intervalo, debería buscar otra prueba.

Respondido el 28 de Junio, 2011 por Uri (111 Puntos )

Evaluación y comprobación de la concordancia entre evaluadores con el estadístico kappa en un conjunto de ítems binarios y de tipo Likert?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Evaluación y comprobación de la concordancia entre evaluadores con el estadístico kappa en un conjunto de ítems binarios y de tipo Likert?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: