Es importante enmarcar la pregunta correctamente y a adoptar un útil modelo conceptual de las puntuaciones.
La pregunta
El posible engaño de los umbrales, de 55, 65 y 85, son conocidos a priori, independientemente de los datos: no se tiene que ser determinado a partir de los datos. (Por lo tanto esto no es una la detección de valores atípicos problema, ni un ajuste de distribución de problema). La prueba se debe evaluar la evidencia de que algunos (no todos) tiene una puntuación inferior a estos umbrales se trasladó a los umbrales (o, tal vez, poco más de esos umbrales).
Modelo Conceptual
Para el modelo conceptual, es fundamental entender que los resultados son poco probable que haya una distribución normal (ni cualquier otro fácilmente con parámetros de distribución). Que es evidente en la publicación de ejemplo y en cada otro ejemplo del informe original. Estas calificaciones representan una mezcla de las escuelas; incluso si la distribución dentro de cualquier escuela normal (que no lo son), la mezcla no es probable que sea normal.
Un enfoque sencillo acepta que hay una verdadera distribución de la puntuación: el que se hubiera notificado a excepción de esta particular forma de hacer trampa. Por lo tanto, es un no-paramétrica de ajuste. Que parece demasiado amplia, pero hay algunas características de la distribución de la puntuación que pueden ser anticipados o observado en los datos reales:
La cuenta de puntuaciones $i-1$, $i$, y $i+1$ se correlaciona estrechamente, $1 \le i \le 99$.
Habrá variaciones en estos conteos alrededor de una idealizada suave versión de la distribución de la puntuación. Estas variaciones suelen ser de un tamaño igual a la raíz cuadrada de la cuenta.
Hacer trampa en relación a un umbral de $t$ no afectará a la cuenta de cualquier puntaje $i\ge t$. Su efecto es proporcional a la cuenta de cada resultado (el número de estudiantes "en riesgo" de ser afectados por la trampa). Para los puntajes $i$ por debajo de este umbral, el recuento $c(i)$ será reducida por alguna fracción $\delta(t-i)c(i)$ e esta cantidad se añadirá a $t(i)$.
La cantidad de cambio disminuye con la distancia entre la puntuación y el umbral: $\delta(i)$ es una función decreciente de $i=1,2,\ldots$.
Dado un umbral $t$, la hipótesis nula (no hay engaño) es que $\delta(1)=0$, lo que implica la $\delta$ es idéntica $0$. La alternativa es que el $\delta(1)\gt 0$.
Construir una prueba
¿Qué prueba estadística a utilizar? De acuerdo con estos supuestos, (a) el efecto es aditivo en la cuenta y (b) el mayor efecto se producirá justo en el umbral. Esto indica mirando primeras diferencias de los condes, $c'(i) = c(i+1)-c(i)$. La consideración adicional sugiere ir un paso más allá: bajo la hipótesis alternativa, esperamos ver una secuencia de poco a poco deprimido cuenta, ya que la puntuación $i$ se aproxima al umbral $t$ desde abajo, entonces (i) un gran cambio positivo en la $t$, seguido por (ii) un gran cambio negativo en $t+1$. Para maximizar la potencia de la prueba, a continuación, echemos un vistazo a la segunda de las diferencias,
$$c''(i) = c'(i+1) - c'(i) = c(i+2) - 2c(i+1) + c(i),$$
porque en $i = t-1$ este combinan un largish negativo de la disminución de $c(t+1)-c(t)$ con la negativa de un gran incremento positivo $c(t) - c(t-1)$, con lo que la ampliación de la trampa efecto.
Voy a plantear la hipótesis-y esto puede ser comprobado, que la correlación serial de los condes cerca del umbral es bastante pequeña. (La correlación Serial en otras partes es irrelevante.) Esto implica que la varianza de $c''(t-1) = c(t+1) - 2c(t) + c(t-1)$ es de aproximadamente
$$\text{var}(c''(t-1)) \approx \text{var}(c(t+1)) + (-2)^2\text{var}(c(t)) + \text{var}(c(t-1)).$$
He sugerido anteriormente que el $\text{var}(c(i)) \approx c(i)$ todos los $i$ (algo que también se puede comprobar). De dónde
$$z = c''(t-1) / \sqrt{c(t+1) + 4c(t) + c(t-1)}$$
debería aproximadamente la mitad de la unidad de la varianza. Para la puntuación de gran tamaño de la población (el publicado uno que parece ser alrededor de 20.000), podemos esperar una distribución aproximadamente Normal de $c''(t-1)$, demasiado. Ya que nos espera un muy valor negativo para indicar una trampa patrón, es fácil obtener una prueba de tamaño de $\alpha$: escrito $\Phi$ para la cdf de la distribución Normal estándar, se rechaza la hipótesis de no hacer trampa en el umbral $t$ al $\Phi(z) \lt \alpha$.
Ejemplo
Por ejemplo, considere este conjunto de verdadera prueba de puntuaciones, dibujado iid a partir de una mezcla de tres distribuciones Normales:
Para esto he aplicado una trampa horario en el umbral de $t=65$ definido por $\delta(i) = \exp(-2 i)$. Este se centra casi todas las trampas de la una o dos de las puntuaciones inmediatamente por debajo de 65:
Para tener una idea de lo que la prueba no se, yo calculadas $z$ para cada puntaje, no sólo a $t$, y conspiraron en contra de la puntuación:
(En realidad, para evitar problemas con la pequeña cuenta, primero me agrega 1 para cada conteo de 0 a 100 para calcular el denominador de $z$.)
La fluctuación de cerca de 65 es evidente, como es la tendencia de todos los demás fluctuaciones a ser de alrededor de 1 en tamaño, de conformidad con los supuestos de esta prueba. El estadístico de prueba es $z = -4.19$, con el correspondiente valor de p $\Phi(z) = 0.0000136$, muy significativo. Comparación Visual con la figura de la pregunta en sí misma sugiere que esta prueba podría devolver un valor p de, al menos, tan pequeño.
(Tenga en cuenta, sin embargo, que la prueba en sí no no utilice este argumento, que se muestra para ilustrar las ideas. La prueba se ve sólo en los trazados de valor en el umbral, en ningún otro lugar. No obstante sería una buena práctica para hacer un complot para confirmar que la estadística de prueba de que realmente no solo a la espera de los umbrales como los loci de la trampa y de que todas las demás puntuaciones no están sujetos a tales cambios. Aquí, podemos ver que en todos los otros puntajes hay fluctuación entre -2 y 2, pero rara vez mayor. Nota, también, que uno no necesita realmente calcule la desviación estándar de los valores en esta parcela en el fin de calcular las $z$, evitando así los problemas asociados con la trampa efectos inflar las fluctuaciones en múltiples lugares.)
Al aplicar esta prueba a varios umbrales, una de Bonferroni ajuste del tamaño de la prueba sería sabio. El ajuste adicional cuando se aplica a varias pruebas al mismo tiempo, también sería una buena idea.
Evaluación
Este procedimiento no puede seriamente ser propuesto para su uso hasta que sea probado con datos reales. Una buena forma sería tomar las puntuaciones de una prueba y el uso de un no-crítico de la puntuación de la prueba de umbral. Presumiblemente, este límite no ha sido objeto de esta forma de hacer trampa. Simular la trampa de acuerdo a este modelo conceptual y el estudio de la simulación de la distribución de $z$. Esto indicará: (a) si los valores de p son precisas y (b) la potencia de la prueba para indicar la simulación de la forma de hacer trampa. De hecho, se podría emplear un estudio de simulación en los datos de uno es la evaluación, proporcionando una manera extremadamente eficaz de las pruebas de si la prueba es apropiado y lo que su potencia real es. Debido a que el estadístico de prueba $z$ es tan simple, simulaciones será posible de hacer y rápido de ejecutar.