PREGUNTA:
Tengo datos binarios en las preguntas del examen (correcto/incorrecto). Algunas personas podrían haber tenido acceso previo a un subconjunto de preguntas y sus respuestas correctas. No sé quién, cuántos, o que. Si no hubo trampa, supongo que sería el modelo de la probabilidad de una respuesta correcta para el elemento i $$ $logit((p_i = 1 | z)) = \beta_i + z$, donde $\beta_i$ representa pregunta de dificultad y $z$ es el individuo la habilidad latente. Esta es una muy simple elemento de modelo de respuesta que puede ser estimado con funciones como ltm de rasch() en R. además De las estimaciones de $\hat{z}_j$ (donde $j$ índices de personas) de la variable latente, tengo acceso a estimaciones por separado $\hat{q}_j$ de la misma variable latente que se deriva de otro conjunto de datos en el que la trampa no era posible.
El objetivo es identificar a los individuos que, probablemente, engañados y los elementos a los que engañó. ¿Cuáles son algunos de los enfoques que puede tomar? En adición a los datos en bruto, $\hat{\beta}_i$, $\hat{z}_j$ y $\hat{q}_j$ son todos los disponibles, aunque los dos primeros tienen un cierto sesgo debido a la trampa. Idealmente, la solución vendría en la forma de probabilística de la agrupación o clasificación, aunque esto no es necesario. Ideas prácticas son muy bien recibidos como son planteamientos formales.
Hasta ahora, he comparado la correlación de las puntuaciones de preguntas para los pares de individuos con un mayor vs menor de $\hat{q}_j -\hat{z}_j $ puntuaciones (donde $\hat{q}_j - \hat{z}_j $ es un índice áspero de la probabilidad de que hicieron trampa). Por ejemplo, según los individuos por $\hat{q}_j - \hat{z}_j $ y, a continuación, traza la correlación de los sucesivos pares de individuos puntuaciones de preguntas. También probé el trazado de la media de la correlación de las puntuaciones de los individuos cuyas $\hat{q}_j - \hat{z}_j $ valores fueron mayores que los de la $n^{th}$ cuantil de $\hat{q}_j - \hat{z}_j $ en función de $n$. No hay patrones obvios para cualquiera de los dos enfoques.
ACTUALIZACIÓN:
Terminé la combinación de las ideas de @SheldonCooper y la ayuda Freakonomics papel que @whuber me señaló hacia. Otras ideas/comentarios/críticas de la recepción.
Deje de $X_{ij}$ persona $j$'s binarias puntuación en la pregunta i$$. Estimación de la respuesta al ítem modelo $de$logit(Pr(X_{ij} = 1 | z_j) = \beta_i + z_j,$$ donde $\beta_i$ es el elemento de la facilidad de parámetros y $z_j$ es una habilidad latente variable. (Una más complicada modelo puede ser sustituido; estoy usando un 2PL en mi aplicación). Como mencioné en mi post original, he estima en $\hat{q_j } $ de la capacidad variable de un conjunto de datos independiente $\{y_{ij}\}$ (artículos diferentes, las mismas personas) en los que el engaño no era posible. Específicamente, $\hat{q_j} $ son empírico de Bayes estimaciones de la misma partida el modelo de respuesta como la anterior.
La probabilidad de que la puntuación observada $x_{ij}$, con la condición de elemento de la facilidad y la capacidad de persona, puede ser escrito $$p_{ij} = Pr(X_{ij} = x_{ij} | \hat{\beta_i }, \hat{q_j }) = P_{ij}(\hat{\beta_i }, \hat{q_j })^{x_{ij}} (1 - P_{ij}(\hat{\beta_i }, \hat{q_j }))^{1-x_{ij}},$$ donde $P_{ij}(\hat{\beta_i }, \hat{q_j }) = ilogit(\hat{\beta_i} + \hat{q_j})$ es la predicción de la probabilidad de una respuesta correcta, y $ilogit$ es el inverso logit. Luego, con la condición de elemento y características de la persona, la probabilidad conjunta de que la persona $j$ las observaciones $x_j$ $$p_j = \prod_i p_{ij},$$ y de manera similar, la probabilidad conjunta de que elemento $i$ las observaciones $x_i$ $$p_i = \prod_j p_{ij}.$$ Las personas con menor $p_j$ valores son aquellos cuya observó que las puntuaciones son condicionalmente menos probable-que son, posiblemente, los tramposos. Los elementos con menor $p_j$ valores son los que son condicionalmente menos probable-son los posibles filtró/elementos compartidos. Este enfoque se basa en la hipótesis de que los modelos son correctos y que la persona $j$'s de los puntajes de correlación condicional sobre la persona y las características de los artículos. Una violación de la segunda hipótesis no es problemático, aunque, mientras el grado de correlación no varía a través de las personas, y el modelo de $p_{ij}$ podría fácilmente ser mejorado (por ejemplo, mediante la adición de otra persona o las características de los artículos).
Un paso adicional que he intentado es tomar el r% de la menos probable de las personas (es decir, las personas con el menor r% de ordenados p_j valores), calcular la distancia media entre las puntuaciones observadas x_j (que debe ser correlacionada para las personas con baja r, que son posibles tramposos), y la trama es de r = 0.001, 0.002, ..., 1.000. La media aumenta la distancia de r = 0.001 r = 0.025, alcanza un máximo y luego disminuye lentamente a un mínimo de r = 1. No es exactamente lo que yo estaba esperando.