10 votos

Cómo probar formalmente para una "escapada" en una distribución normal (u otros)

Con frecuencia surge en las ciencias sociales que las variables que deben ser distribuidos de alguna manera, decir que normalmente, al final tener una discontinuidad en su distribución en torno a ciertos puntos.

Por ejemplo, si hay cortes como "pasa/falla" y si estas medidas están sujetas a distorsión, puede haber una discontinuidad en ese punto.

Un ejemplo prominente (citado más adelante) viene estudiante resultados de las pruebas estandarizadas están normalmente distribuidos básicamente en todas partes, excepto en un 60% cuando hay muy poca masa de 50 a 60% y un exceso de masa alrededor de 60-65%. Esto ocurre en los casos donde los maestros de grado de sus estudiantes, los exámenes. Los autores investigar si los maestros son realmente ayudar a los estudiantes a aprobar los exámenes.

La evidencia más convincente, sin duda viene de mostrar los gráficos de una curva en forma de campana con una gran discontinuidad en torno a diferentes puntos de corte para las diferentes pruebas. Sin embargo, ¿cómo usted va sobre el desarrollo de un estadístico de prueba? Se trató de interpolación y, a continuación, comparar fracción por encima o por debajo y también una prueba t en la fracción 5 puntos por encima y por debajo de la frecuencia de corte. Mientras sensible, estos son ad-hoc. Puede alguien pensar en algo mejor?

Enlace: Reglas y Discrecionalidad en la Evaluación de los Estudiantes y las Escuelas: El Caso de la Nueva York de los Regentes de los Exámenes http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf

Distribution of test scores, manipulable ones in black, note the sharp drop in density below the cutoff and corresponding rise above

6voto

jldugger Puntos 7490

Es importante enmarcar la pregunta correctamente y a adoptar un útil modelo conceptual de las puntuaciones.

La pregunta

El posible engaño de los umbrales, de 55, 65 y 85, son conocidos a priori, independientemente de los datos: no se tiene que ser determinado a partir de los datos. (Por lo tanto esto no es una la detección de valores atípicos problema, ni un ajuste de distribución de problema). La prueba se debe evaluar la evidencia de que algunos (no todos) tiene una puntuación inferior a estos umbrales se trasladó a los umbrales (o, tal vez, poco más de esos umbrales).

Modelo Conceptual

Para el modelo conceptual, es fundamental entender que los resultados son poco probable que haya una distribución normal (ni cualquier otro fácilmente con parámetros de distribución). Que es evidente en la publicación de ejemplo y en cada otro ejemplo del informe original. Estas calificaciones representan una mezcla de las escuelas; incluso si la distribución dentro de cualquier escuela normal (que no lo son), la mezcla no es probable que sea normal.

Un enfoque sencillo acepta que hay una verdadera distribución de la puntuación: el que se hubiera notificado a excepción de esta particular forma de hacer trampa. Por lo tanto, es un no-paramétrica de ajuste. Que parece demasiado amplia, pero hay algunas características de la distribución de la puntuación que pueden ser anticipados o observado en los datos reales:

  1. La cuenta de puntuaciones $i-1$, $i$, y $i+1$ se correlaciona estrechamente, $1 \le i \le 99$.

  2. Habrá variaciones en estos conteos alrededor de una idealizada suave versión de la distribución de la puntuación. Estas variaciones suelen ser de un tamaño igual a la raíz cuadrada de la cuenta.

  3. Hacer trampa en relación a un umbral de $t$ no afectará a la cuenta de cualquier puntaje $i\ge t$. Su efecto es proporcional a la cuenta de cada resultado (el número de estudiantes "en riesgo" de ser afectados por la trampa). Para los puntajes $i$ por debajo de este umbral, el recuento $c(i)$ será reducida por alguna fracción $\delta(t-i)c(i)$ e esta cantidad se añadirá a $t(i)$.

  4. La cantidad de cambio disminuye con la distancia entre la puntuación y el umbral: $\delta(i)$ es una función decreciente de $i=1,2,\ldots$.

Dado un umbral $t$, la hipótesis nula (no hay engaño) es que $\delta(1)=0$, lo que implica la $\delta$ es idéntica $0$. La alternativa es que el $\delta(1)\gt 0$.

Construir una prueba

¿Qué prueba estadística a utilizar? De acuerdo con estos supuestos, (a) el efecto es aditivo en la cuenta y (b) el mayor efecto se producirá justo en el umbral. Esto indica mirando primeras diferencias de los condes, $c'(i) = c(i+1)-c(i)$. La consideración adicional sugiere ir un paso más allá: bajo la hipótesis alternativa, esperamos ver una secuencia de poco a poco deprimido cuenta, ya que la puntuación $i$ se aproxima al umbral $t$ desde abajo, entonces (i) un gran cambio positivo en la $t$, seguido por (ii) un gran cambio negativo en $t+1$. Para maximizar la potencia de la prueba, a continuación, echemos un vistazo a la segunda de las diferencias,

$$c''(i) = c'(i+1) - c'(i) = c(i+2) - 2c(i+1) + c(i),$$

porque en $i = t-1$ este combinan un largish negativo de la disminución de $c(t+1)-c(t)$ con la negativa de un gran incremento positivo $c(t) - c(t-1)$, con lo que la ampliación de la trampa efecto.

Voy a plantear la hipótesis-y esto puede ser comprobado, que la correlación serial de los condes cerca del umbral es bastante pequeña. (La correlación Serial en otras partes es irrelevante.) Esto implica que la varianza de $c''(t-1) = c(t+1) - 2c(t) + c(t-1)$ es de aproximadamente

$$\text{var}(c''(t-1)) \approx \text{var}(c(t+1)) + (-2)^2\text{var}(c(t)) + \text{var}(c(t-1)).$$

He sugerido anteriormente que el $\text{var}(c(i)) \approx c(i)$ todos los $i$ (algo que también se puede comprobar). De dónde

$$z = c''(t-1) / \sqrt{c(t+1) + 4c(t) + c(t-1)}$$

debería aproximadamente la mitad de la unidad de la varianza. Para la puntuación de gran tamaño de la población (el publicado uno que parece ser alrededor de 20.000), podemos esperar una distribución aproximadamente Normal de $c''(t-1)$, demasiado. Ya que nos espera un muy valor negativo para indicar una trampa patrón, es fácil obtener una prueba de tamaño de $\alpha$: escrito $\Phi$ para la cdf de la distribución Normal estándar, se rechaza la hipótesis de no hacer trampa en el umbral $t$ al $\Phi(z) \lt \alpha$.

Ejemplo

Por ejemplo, considere este conjunto de verdadera prueba de puntuaciones, dibujado iid a partir de una mezcla de tres distribuciones Normales:

Histogram of true scores

Para esto he aplicado una trampa horario en el umbral de $t=65$ definido por $\delta(i) = \exp(-2 i)$. Este se centra casi todas las trampas de la una o dos de las puntuaciones inmediatamente por debajo de 65:

Histogram of scores after cheating

Para tener una idea de lo que la prueba no se, yo calculadas $z$ para cada puntaje, no sólo a $t$, y conspiraron en contra de la puntuación:

Plot of Z

(En realidad, para evitar problemas con la pequeña cuenta, primero me agrega 1 para cada conteo de 0 a 100 para calcular el denominador de $z$.)

La fluctuación de cerca de 65 es evidente, como es la tendencia de todos los demás fluctuaciones a ser de alrededor de 1 en tamaño, de conformidad con los supuestos de esta prueba. El estadístico de prueba es $z = -4.19$, con el correspondiente valor de p $\Phi(z) = 0.0000136$, muy significativo. Comparación Visual con la figura de la pregunta en sí misma sugiere que esta prueba podría devolver un valor p de, al menos, tan pequeño.

(Tenga en cuenta, sin embargo, que la prueba en sí no no utilice este argumento, que se muestra para ilustrar las ideas. La prueba se ve sólo en los trazados de valor en el umbral, en ningún otro lugar. No obstante sería una buena práctica para hacer un complot para confirmar que la estadística de prueba de que realmente no solo a la espera de los umbrales como los loci de la trampa y de que todas las demás puntuaciones no están sujetos a tales cambios. Aquí, podemos ver que en todos los otros puntajes hay fluctuación entre -2 y 2, pero rara vez mayor. Nota, también, que uno no necesita realmente calcule la desviación estándar de los valores en esta parcela en el fin de calcular las $z$, evitando así los problemas asociados con la trampa efectos inflar las fluctuaciones en múltiples lugares.)

Al aplicar esta prueba a varios umbrales, una de Bonferroni ajuste del tamaño de la prueba sería sabio. El ajuste adicional cuando se aplica a varias pruebas al mismo tiempo, también sería una buena idea.

Evaluación

Este procedimiento no puede seriamente ser propuesto para su uso hasta que sea probado con datos reales. Una buena forma sería tomar las puntuaciones de una prueba y el uso de un no-crítico de la puntuación de la prueba de umbral. Presumiblemente, este límite no ha sido objeto de esta forma de hacer trampa. Simular la trampa de acuerdo a este modelo conceptual y el estudio de la simulación de la distribución de $z$. Esto indicará: (a) si los valores de p son precisas y (b) la potencia de la prueba para indicar la simulación de la forma de hacer trampa. De hecho, se podría emplear un estudio de simulación en los datos de uno es la evaluación, proporcionando una manera extremadamente eficaz de las pruebas de si la prueba es apropiado y lo que su potencia real es. Debido a que el estadístico de prueba $z$ es tan simple, simulaciones será posible de hacer y rápido de ejecutar.

1voto

Carl McTague Puntos 111

Sugiero el ajuste de un modelo que explícitamente predice los dips y, a continuación, demostrando que es significativamente mejor se ajusta a los datos de un ingenuo.

Se necesitan dos componentes:

  • inicial de la distribución de las puntuaciones,
  • procedimiento de comprobación (honesto o no) de los resultados cuando se ajusta por debajo de un umbral.

Un posible modelo para un único umbral (valor $t$) es la siguiente: $$p_{final}(s) = p_{initial}(s) - p_{initial}(s)m(s\rightarrow t)+ \delta(s=t)\sum_{s'=0}^{t-1}p_{initial}(s')m(s'\rightarrow t),$$ donde

  • $p_{final}(s)$ - de la distribución de probabilidad de la puntuación final,
  • $p_{initial}(s)$ - de la distribución de probabilidad si no se umbrales,
  • $m(s'\rightarrow t)$ - la probabilidad de manipulación de puntuación $s'$ en la calificación para aprobar $t$,
  • $\delta(s=t)$ es la delta de Kronecker, es decir, 1 si $s=t$ y 0 en caso contrario.

Normalmente, usted no puede subir puntuaciones mucho. Yo sospecho de decaimiento exponencial $m(s'\rightarrow t)\approx a q^{t-s'}$ donde $a$ es la proporción de volver a revisar (manipulada) de las puntuaciones.

Como la distribución inicial puede intentar el uso de Poisson o distribución de Gauss. Por supuesto, sería lo ideal para tener la misma prueba, pero para un grupo de profesores proporcionan a los umbrales y por el otro - no umbrales.

Si hay más de los umbrales, a continuación, se puede aplicar la misma fórmula pero con correcciones para cada una de las $t_i$. Quizás $a_i$ sería diferente (por ejemplo, como la diferencia entre fallar-pass puede ser más importante que entre los dos calificaciones de aprobación).

Notas:

  • A veces hay procedimientos de verificación de las pruebas si hay justo debajo de la nota de aprobado. Entonces es más difícil decir cual de los casos fueron honestos y cuales no.
  • $m(s\rightarrow t)$ seguramente dependerá del tipo de prueba. Por ejemplo, si existen preguntas abiertas, a continuación, algunas respuestas pueden ser ambiguas y el número de ellos depende de $s$ (así, por de bajo de puntuación puede ser más fácil para el aumento de la puntuación). Mientras que para el cerrado de la elección de la prueba debe haber poca o ninguna diferencia en el número de respuestas correctas y las incorrectas.
  • A veces la "corrección" de las puntuaciones puede estar por encima de $t$ - el lugar de la idealizada $\delta(s=t)$ uno puede plug sth diferentes.

1voto

A.Schulz Puntos 264

Me gustaría dividir este problema en dos subproblemas:

  • Estimación de los parámetros de una distribución para ajustar los datos
  • Realizar la detección de valores atípicos uso de los armarios de distribución

Hay varias maneras de abordar cualquiera de los subproblemas.

A mí me parece que una distribución de Poisson se ajuste a los datos, si se tratara de forma independiente e idénticamente distribuidas (iid), que por supuesto que pienso que no es. Si nos ingenuamente tratar de estimar los parámetros de la distribución que serán sesgadas por los valores extremos. Dos posibles formas de superar este son el uso de Regresión Robusta técnicas, o un método heurístico, tales como la validación cruzada.

Para la detección de valores atípicos no son más numerosos enfoques. El más sencillo es utilizar los intervalos de confianza de la distribución, hemos montado en la etapa 1. Otros métodos incluyen bootstrap y métodos de Monte-Carlo enfoques.

Aunque esto no digo que hay un "salto" en la distribución, es decir si hay más valores atípicos de lo esperado para el tamaño de la muestra.

Un enfoque más complejo sería construir diversos modelos de los datos, tales como compuesto de distribuciones, y el uso de algún tipo de modelo con el método de comparación (AIC/BIC) para determinar cuál de los modelos es el mejor ajuste para los datos. Sin embargo, si usted está buscando simplemente "la desviación de una distribución esperada", a continuación, esto parece una exageración.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X