Edit: Mientras que aprecio Pedro Flom, las sugerencias y la posterior discusión (y upvoted su respuesta), estoy abriendo una recompensa para solicitar una respuesta que ofrece un enfoque formal estadístico para la manipulación de estas inconsistencias, minimizando la pérdida de datos. Tengo la fuerte sospecha de que esta cuestión ha inspirado la investigación estadística a lo largo de las líneas de mis puntos a continuación (o tal vez completamente diferente!) pero yo no soy consciente de ello y estoy esperando a despertar la atención de alguien que no es. Me gustaría considerar la posibilidad de una respuesta que es poco más que una referencia y una descripción corta para ser dignos de la recompensa; no hay necesidad de derivar o aplicar el enfoque para mí. También me gustaría aceptar una respuesta que da un acercamiento inteligente, con algunos detalles que, sin una referencia. Creo que @Momo puede estar en algo con los comentarios de abajo, así que tal vez esta recompensa sacaré más detalles/información de fondo :)
Edit: Para los fines de la construcción de un modelo manejable, estoy dispuesto a asumir que las inconsistencias surgir "al azar", por ejemplo, debido al azar a la mis-la lectura de la pregunta o de la mis-clic en una respuesta en una tablet/ordenador, de modo que los errores pueden ser concebidos como independientes de cualquiera de las variables auxiliares, en contraste con el ejemplo dado por @whuber en los comentarios.
Hace poco estuve con un enfoque estadístico de la pregunta acerca de tener respuestas incoherentes a las preguntas. Creo que esta es la misma pregunta básica como cuando usted tiene múltiples evaluadores que no están de acuerdo sobre cómo valorar un elemento en particular, y pensé que este lenguaje puede ser más familiar, que es la razón por la que elegí este título.
Un juguete ejemplo:
P1: ¿usted fuma?
A1: No
Q2: ¿cuántos cigarrillos al día ¿usted fuma?
A2: 5
Por supuesto, un "patrón de exclusión" en el cuestionario se habría evitado esto, pero que el barco ha zarpado. La situación real es más complejo que esto, y abarca más preguntas con más sutiles incoherencias, pero el problema básico es el mismo. La consulta de la persona que me preguntó esto puede ser simplemente dijo:
Existen métodos para eliminar algún grado de incoherencia y la preservación de tantas muestras como sea posible?
Soy muy consciente de que, si quieres estar "seguro", entonces la única cosa a hacer es tirar las muestras con respuestas inconsistentes, pero esa no es la respuesta que estoy buscando. En particular, hay algunos casos donde hay buena evidencia de que una respuesta particular es un error y estoy buscando maneras de principios para el uso que evidencia - como un ejemplo extremo, supongamos que diez preguntas miden el mismo constructo y nueve de las diez de acuerdo - entonces es muy probable que el que no está de acuerdo, fue un error (por ejemplo, una mala lectura de la pregunta o de un mis-haga clic en el ordenador/tableta, que se utiliza para administrar la encuesta)
Las ideas básicas que tengo en el tema de traer a la mente dos ideas generales:
Tratar de construir un modelo que estima la probabilidad de que un artículo en particular es un error y cambiar las respuestas "cuya probabilidad de error de" es muy alta. Mis preocupaciones son que a) esto no es manejable sin hacer silvestres suposiciones acerca de la "tasa de error", y b) si sólo hay unos pocos (por ejemplo 3 o 4) preguntas para cada constructo, este enfoque sería prácticamente inútil.
Pruebe a seleccionar algunos "fiable subconjunto" de las preguntas (es decir, trate de determinar si el desacuerdo con regularidad surge a partir de un subconjunto particular de las preguntas). De esta manera puedo conseguir lejos con la eliminación de las columnas del conjunto de datos en lugar de filas. Esto parece razonable, pero sería más de un procedimiento ad hoc que no estoy seguro de cómo formalizar.
No estoy del todo familiarizado con este campo, y parece que este tipo de problema vendría de vez en cuando en la estadística de consultoría, por lo que yo quería saber cómo se maneja este asunto (aparte de tirar la salida de datos) antes de tratar de "reinventar la rueda".