5 votos

La combinación de las calificaciones de varios evaluadores de diferentes precisión

Tengo un conjunto de datos de J evaluadores que cada uno le dará calificaciones para que me objetos (en una escala de 1 a 5). Mi objetivo sería construir algún tipo de calificación total para cada i basado en que todos los evaluadores puntuaciones.

Mi primera aproximación, que yo he visto usar antes, es la construcción de un puntaje estandarizado específicos para cada evaluador-objeto de par, por lo que cada uno de los j calificaciones están estandarizados y j de calificación para el objeto i es: (j de la puntuación en la i - j del avg puntuación en todas las I)/ (desviación estándar de los j de las puntuaciones en todas). Si todos los evaluadores fueron igualmente de confianza, creo que este sería un enfoque aceptable y tiene una buena interpretación.

Sin embargo, sospecho que no son flojos o mal calibrado evaluadores cuya clasificación no repartidos (por ejemplo, dan el 95% 4s y un ocasional 5 cuando la distribución que realmente debe ser uniforme). Parece que me quiere de alguna manera dar mayor peso a los evaluadores con la dispersión de las calificaciones. También tengo la idea de que un pequeño subconjunto de los evaluadores son "las mejores" de los evaluadores. Hay una manera, quizás, el peso de cada evaluador de la puntuación en línea con sus confiabilidad inter-evaluador con el más preciso de los evaluadores?

Por simplicidad, mi preferencia sería el uso de algún tipo de modelo lineal generalizado, si es posible.

1voto

Peter Puntos 1

Si los más pobres de los evaluadores es así de malo, sugiere que no son la adición de información y podría ser dado de baja de la piscina de los evaluadores. Esto sería preferible a la ponderación de sus clasificaciones porque:

  1. a veces sus "5"s realmente será "5"s de acuerdo a su mejor evaluadores. Dado que su mejor evaluadores están proporcionando toda la información que usted necesita para una correcta clasificación, no es necesario incorporar la información desde los más pobres de los evaluadores. Sus resultados no van a cambiar para esos objetos.
  2. en los objetos que deben tener un grado más bajo que un "4" o "5", que son la obtención de información acerca de lo que la calificación de "debería" ser de tu mejor evaluadores. De peso bajar las calificaciones de los más pobres de los evaluadores, que se base esta en las diferencias entre ellos y su buena evaluadores. De nuevo, parece ser que no hay ganancia de información de los más pobres de los evaluadores, como la calificación final global básicamente ignora sus calificaciones.

Tal vez me he perdido algo. Sin embargo, si alguna de las calificaciones son básicamente inútil, es mejor dejar en su totalidad, en lugar de tratar de transformaciones - que no van a afectar sus calificaciones globales para cada uno de los objetos de todos modos.

Actualización sobre el comentario: sí, exactamente, la mala evaluadores son "ruido" que tendría que ser transformado para "señal". Dado que el algoritmo utilizado para traducir a "la señal" está basado en la buena evaluadores y sólo será aproximado, parece que hay poco punto en ir a este esfuerzo.

Usted podría mirar a la confiabilidad inter-evaluador de medidas para la mejor buenos evaluadores y ver lo que sucede. Hay una serie de factores a tener en cuenta aún con esta reducción de enfoque:

  1. Si hay una gran cantidad de elementos que se clasifican en los extremos por su buena evaluadores ("1"s y "5"s) y sus otros evaluadores se las arreglan para darle equivalente extrema calificaciones, la inter-valoración de la fiabilidad de la medida se verán afectados por dichos extremos objetos de valor, y la confiabilidad inter-evaluador puede ser menor.
  2. Usted todavía puede obtener buenos confiabilidad inter-evaluador medidas, incluso con el subconjunto que son "menos malo".

Así que este es un camino que podría ir hacia abajo, y estar preparado que usted no puede conseguir un buen resultado incluso con su subconjunto.

Replantear este, la eliminación de las malas evaluador de las puntuaciones de no tirar de datos, es tirar el ruido.

1voto

eelco Puntos 1459

Si estoy entendiendo bien, puede analizar los datos con un simple azar interceptar modelo. Usted tiene evaluadores indexados por j de 1 a J y artículos indexados por i de 1 a I. Para cada elemento, cada evaluador produce una respuesta $ R_{ij} $ Usando la terminología de la psicometría, parece que desea estimar la "dificultad" (o calidad) de cada elemento. Se puede estimar utilizando el siguiente modelo:

$$ (R_{ij} = x | \zeta_j) = \zeta_j + \delta_i + \epsilon_{ij} \\ $$

$$ \zeta_j \sim N(0,\psi) \\ \epsilon_{ij} \sim (0,\theta) $$

Usando este modelo, la interpretación es la siguiente:

$ \delta_i $ stands son de efectos fijos que representan la dificultad/calidad asociados a cada uno de los artículos.

$ \zeta_j $ el (al azar) evaluador de intercepción. Dependiendo de qué software usas para estimar el modelo que usted puede o no puede obtener automáticamente como parte de la salida.

$ \psi $ será la varianza de los efectos aleatorios (la varianza de su evaluadores).

$ \theta $ wil ser la varianza residual.

Si usted está interesado en la fiabilidad de sus evaluadores, se puede calcular la intra clase correlación basada en la varianza de dos parámetros:

$$ ICC = \dfrac{\psi}{\theta+\psi} $$

Este tipo de modelo debe ser fácilmente estimable en cualquier paquete estadístico. Por ejemplo, en el programa Stata puede utilizar xtreg y en R puede utilizar el llme4 paquete.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X