7 votos

Manejo de baja confiabilidad inter-evaluador, minimizando la pérdida de datos

Edit: Mientras que aprecio Pedro Flom, las sugerencias y la posterior discusión (y upvoted su respuesta), estoy abriendo una recompensa para solicitar una respuesta que ofrece un enfoque formal estadístico para la manipulación de estas inconsistencias, minimizando la pérdida de datos. Tengo la fuerte sospecha de que esta cuestión ha inspirado la investigación estadística a lo largo de las líneas de mis puntos a continuación (o tal vez completamente diferente!) pero yo no soy consciente de ello y estoy esperando a despertar la atención de alguien que no es. Me gustaría considerar la posibilidad de una respuesta que es poco más que una referencia y una descripción corta para ser dignos de la recompensa; no hay necesidad de derivar o aplicar el enfoque para mí. También me gustaría aceptar una respuesta que da un acercamiento inteligente, con algunos detalles que, sin una referencia. Creo que @Momo puede estar en algo con los comentarios de abajo, así que tal vez esta recompensa sacaré más detalles/información de fondo :)

Edit: Para los fines de la construcción de un modelo manejable, estoy dispuesto a asumir que las inconsistencias surgir "al azar", por ejemplo, debido al azar a la mis-la lectura de la pregunta o de la mis-clic en una respuesta en una tablet/ordenador, de modo que los errores pueden ser concebidos como independientes de cualquiera de las variables auxiliares, en contraste con el ejemplo dado por @whuber en los comentarios.


Hace poco estuve con un enfoque estadístico de la pregunta acerca de tener respuestas incoherentes a las preguntas. Creo que esta es la misma pregunta básica como cuando usted tiene múltiples evaluadores que no están de acuerdo sobre cómo valorar un elemento en particular, y pensé que este lenguaje puede ser más familiar, que es la razón por la que elegí este título.

Un juguete ejemplo:

P1: ¿usted fuma?
A1: No
Q2: ¿cuántos cigarrillos al día ¿usted fuma?
A2: 5

Por supuesto, un "patrón de exclusión" en el cuestionario se habría evitado esto, pero que el barco ha zarpado. La situación real es más complejo que esto, y abarca más preguntas con más sutiles incoherencias, pero el problema básico es el mismo. La consulta de la persona que me preguntó esto puede ser simplemente dijo:

Existen métodos para eliminar algún grado de incoherencia y la preservación de tantas muestras como sea posible?

Soy muy consciente de que, si quieres estar "seguro", entonces la única cosa a hacer es tirar las muestras con respuestas inconsistentes, pero esa no es la respuesta que estoy buscando. En particular, hay algunos casos donde hay buena evidencia de que una respuesta particular es un error y estoy buscando maneras de principios para el uso que evidencia - como un ejemplo extremo, supongamos que diez preguntas miden el mismo constructo y nueve de las diez de acuerdo - entonces es muy probable que el que no está de acuerdo, fue un error (por ejemplo, una mala lectura de la pregunta o de un mis-haga clic en el ordenador/tableta, que se utiliza para administrar la encuesta)

Las ideas básicas que tengo en el tema de traer a la mente dos ideas generales:

  • Tratar de construir un modelo que estima la probabilidad de que un artículo en particular es un error y cambiar las respuestas "cuya probabilidad de error de" es muy alta. Mis preocupaciones son que a) esto no es manejable sin hacer silvestres suposiciones acerca de la "tasa de error", y b) si sólo hay unos pocos (por ejemplo 3 o 4) preguntas para cada constructo, este enfoque sería prácticamente inútil.

  • Pruebe a seleccionar algunos "fiable subconjunto" de las preguntas (es decir, trate de determinar si el desacuerdo con regularidad surge a partir de un subconjunto particular de las preguntas). De esta manera puedo conseguir lejos con la eliminación de las columnas del conjunto de datos en lugar de filas. Esto parece razonable, pero sería más de un procedimiento ad hoc que no estoy seguro de cómo formalizar.

No estoy del todo familiarizado con este campo, y parece que este tipo de problema vendría de vez en cuando en la estadística de consultoría, por lo que yo quería saber cómo se maneja este asunto (aparte de tirar la salida de datos) antes de tratar de "reinventar la rueda".

7voto

Zizzencs Puntos 1358

En un trabajo anterior me encontré con esto un montón. Todo tipo de inconsistencias. Como @rolando2 no creo que ninguna solución general va a ser tan bueno como lo que puede venir con tu propio; a continuación, sólo tiene que justificar a quien es su audiencia.

Sin embargo, una cosa que puedes hacer es una serie de análisis de sensibilidad, el tratamiento de los datos de diferentes maneras. es decir, si dos preguntas tienen respuestas que son incompatibles usted podría ejecutar primero el análisis suponiendo que todo el mundo respondió a la primera pregunta correctamente y, a continuación, como si todo el mundo respondió a la segunda pregunta correctamente.

Para algunos específicos inconsistencias, no se conocen los resultados. Por ejemplo, se sabe que si preguntas a la gente "¿cuántos años tienes?" y "Cuando nació usted?", el segundo respuestas serán más precisos.

En general, si las preguntas son tales que el estigma asociado a una respuesta, la más estigmatizado respuesta es probable que sea correcta.

2voto

radpin Puntos 121

Modelado de ecuaciones estructurales pueden ser de ayuda aquí, en particular, análisis factorial confirmatorio, que le permite comprobar si su hipótesis de modelo de medición se ajusta a los datos y si no, cómo se podría ajustar a hacerlo, por ejemplo, dejando de elementos.

Como el análisis factorial exploratorio, CFA modelos de respuestas a la encuesta (o de otros elementos de la medición de algunos latente de construir) como el resultado de una o más dimensiones subyacentes y el error aleatorio. En general, se necesitan al menos tres elementos por construir para identificar un modelo de medición, aunque con múltiples dimensiones, a veces usted puede conseguir lejos con sólo dos.

Una vez que haya especificado su latente de las construcciones y los elementos de la hipótesis a la medida de cada constructo, se estima el modelo y obtendrá un número de ajuste de los índices que se pueden utilizar para juzgar si el modelo es adecuado. Puedes comparar diferentes modelos por medio de diversos criterios. Usted puede inspeccionar el factor de cargas y varianzas de error para cada elemento para ver si parece ser un buen elemento para medir el constructo subyacente o no. Esto le da orientación sobre los elementos (es decir, las columnas en el conjunto de datos) puede ser sacado de su modelo.

Más allá de la creación de un modelo de medición, se puede especificar aún más direccional de relaciones entre constructos latentes mediante un modelo de ecuaciones estructurales (SEM). Esto es preferible el uso de, por ejemplo, las tradicionales de regresión lineal debido a que el error de medición se modelan explícitamente, mientras que en el enfoque habitual sólo aleatorio de error en la variable de resultado es de suponer.

Usted puede utilizar el sem paquete en R para construir CFA y SEM modelos. No he usado ese paquete sin embargo. He utilizado Mplus y Amos y prefieren Mplus para la gran variedad de modelos de ecuaciones estructurales se puede manejar, incluyendo aquellos con los binarios de los indicadores.

Para una referencia, me gusta Kline del libro en el SEM.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X