1 votos

detección de valores atípicos en los datos de calificación subjetiva que no son coherentes entre los calificadores

En mi experimento, invité a 3 expertos para que evaluaran el rendimiento de la danza de 20 sujetos. Por lo tanto, cada sujeto obtendrá 3 puntuaciones dadas por el experto de forma individual. Para la mayoría de los sujetos, la evaluación de los tres expertos es coherente. Sin embargo, en varias asignaturas, las puntuaciones dadas por los expertos son muy diferentes. Por ejemplo, para el tema 01, el experto A da una puntuación de 70, el experto B da una puntuación de 50, el experto C da una puntuación de 30. Pero para otros temas, las diferencias son muy pequeñas. Ya utilicé el coeficiente de correlación intraclase para comprobar la consistencia entre la evaluación de los 3 expertos, y resultó bien, lo que significa que la evaluación general entre los 3 expertos es consistente. Por lo tanto, quiero saber si hay algún método estadístico para detectar los temas cuya puntuación no es consistente entre los 3 expertos. Quiero eliminar estos sujetos como valores atípicos. enter image description here

1voto

Fredrik Mörk Puntos 85694

No tengo una respuesta, pero sí un consejo, y es el mismo que me daba mi madre

Lo primero que se hace, con cualquier tipo de datos, es trazarlos.

En lugar de datos reales, he tenido que recurrir a simulaciones. Espero que se ajuste algo.

set.seed(1)

ee <- sort(rbeta(20, 2, 3))
ea <- ee + (rbeta(20, 2, 3) - 0.5)*0.1
eb <- ee + (rbeta(20, 3, 3) - 0.1)*0.1
ec <- ee + (rbeta(20, 4, 2) - 0.1)*0.1

e <- cbind(ea, eb, ec)
e <- e + sample(c(rep(0, 20), 0.2, 0.3), length(e), replace=TRUE)
e <- floor(e / max(e) * 100)

par(mar=c(2, 2, 0.5, 0.5))
matplot(e, type="l", lty=1, lwd=2)
legend("topleft", legend=LETTERS[1:3], col=1:3, lwd=2)

enter image description here

Como se puede ver, los tres jueces están de acuerdo en líneas generales, pero hay algunas idiosincrasias. Por ejemplo:

  • El juez A da una puntuación media más baja que los otros dos.

  • Hay algunos casos evidentes en los que uno de los jueces ha tenido una impresión muy diferente a la de los otros dos. Como en el caso de los temas 4, 5 y 11, en los que el juez C da, con diferencia, las calificaciones más altas.

  • Menos evidente es el caso del sujeto 15. Aunque la puntuación otorgada por el juez A no es tan alta comparada con la de los otros dos, es significativa porque es el único caso en el que el juez A da la puntuación más alta de todos.

Entonces, ¿cuáles son los valores atípicos? ¿Cuáles de ellos deben ser eliminados? ¿Quizás 6, quizás 12, quizás la mitad, quizás ninguno? Todo depende.
¿Quizás los valores atípicos no deban eliminarse por completo, sino que se les dé menos importancia en el análisis posterior? ¿Quizás las distribuciones deban ser escaladas o transformadas de otra manera? Todo depende.

0 votos

Sólo he adjuntado una figura para mostrar la evaluación de los expertos. Pero todavía espero que haya una forma estadística de eliminar algunos valores atípicos. Muchas gracias.

0 votos

@XiaoqunYu: Depende de lo que entiendas por "estadística". No existe una solución mágica en la que no tengas que hacer juicios de valor y un algoritmo tome las decisiones por ti. Tendrás que decidir por ti mismo qué constituye un valor atípico y qué no, y qué hacer con ellos. ¿Quizá se especifica un modelo y se dice que cualquier cosa que se desvíe lo suficiente de los parámetros de ese modelo es un valor atípico? En cualquier caso, tendrás que especificar el modelo y argumentar por qué tus decisiones tienen sentido.

0voto

avid Puntos 161

Una forma sencilla de cuantificar la consistencia de las puntuaciones entre los calificadores, en función de cada sujeto, es calcular la desviación estándar (o rango, o desviación media absoluta de la mediana) de las tres puntuaciones.

No está claro si tiene sentido eliminar estos sujetos con calificaciones inconsistentes como valores atípicos; tendría que saber más sobre su análisis y su objetivo analítico. Pero dudo que lo tenga.

0 votos

He desarrollado un algoritmo para evaluar atómicamente el rendimiento del sujeto en la danza. Así que la evaluación de los expertos sería mi referencia de oro para comprobar la exactitud de mi algoritmo. Me encontré con que los jueces dan puntuaciones muy diferentes, que también están muy lejos del resultado de mi algoritmo. Por lo tanto, quiero utilizar alguna forma estadística para eliminar estos temas.

0 votos

@XiaoqunYu Ya veo, así que los casos en los que los expertos no se ponen de acuerdo es cuando es demasiado difícil decir cuál es la respuesta correcta y, por tanto, evaluar tu algoritmo. Eso tiene sentido. Sin embargo, dado que sólo tienes 20 temas, te aconsejo que no elimines ninguno. Más de dos sería exagerado, ya que estarías desechando más del 10% de los datos. Así que tal vez eliminar el único tema más variable, o los dos primeros.

0 votos

Gracias por su sugerencia. Acabo de editar mi pregunta, he adjuntado una figura para mostrar el resultado de la evaluación de 3 expertos para que pueda comprobar fácilmente el resultado. Pero todavía espero que haya una forma estadística para ayudarme a eliminar estos "valores atípicos" en lugar de eliminar manualmente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X