Voy a revertir la ingeniería de este a partir de la experiencia con casos de discriminación. Yo sin duda puede establecer que los valores de "uno en 741," etc, vino. Sin embargo, tanto la información se pierde en la traducción, ya que el resto de mi reconstrucción se basa en haber visto cómo la gente hacer estadísticas en la sala de audiencias de la configuración. Sólo puedo adivinar algunos de los detalles.
Desde el momento en que las leyes contra la discriminación que se aprobaron en la década de 1960 (Título VI), los tribunales de los Estados unidos han aprendido a mirar a los valores de p y se les compara con los umbrales de $0.05$$0.01$. También han aprendido a mirar a efectos estandarizados, lo que normalmente se conoce como "desviación estándar" y se les compara con un umbral de "dos a tres desviaciones estándar." Con el fin de establecer una presunción prima facie caso de una demanda por discriminación, los demandantes normalmente intento de un cálculo estadístico que muestra un "impacto directo" que exceda estos límites. Si ese cálculo no puede ser admitido, el caso general no se puede avanzar.
Expertos en estadísticas de los demandantes a menudo intentan frase de sus resultados en estos términos familiares. Algunos de los expertos en llevar a cabo una prueba estadística en la que la hipótesis nula expresa "ningún impacto adverso," suponiendo que las decisiones de empleo eran puramente al azar y sin ninguna otra característica de los empleados. (Si se trata de una de una cola o de dos colas alternativa puede depender de los expertos y de las circunstancias). Que, a continuación, convertir el valor p de esta prueba en un número de "desviación estándar", refiriéndose a la distribución Normal estándar--incluso cuando la Normal estándar es irrelevante para la prueba inicial. En esta rotonda manera que la esperanza de comunicar sus conclusiones claramente al juez.
El favorito de la prueba para datos que pueden ser resumidos en las tablas de contingencia es la Prueba Exacta de Fisher. La aparición de "Exacto" en su nombre es particularmente agradable a los demandantes, porque connota un estadístico de la determinación de que se ha realizado sin errores (lo que podría ser!).
Aquí, entonces, es mi (especulativo reconstrucción) del Departamento de Trabajo de los cálculos.
Se corrió la Prueba Exacta de Fisher, o algo similar (como un $\chi^2$ prueba con un p-valor determinado a través de la aleatorización). Esta prueba supone una distribución hipergeométrica como se describe en Mateo Gunn de la respuesta. (Por el pequeño número de personas involucradas en la presente demanda, la distribución hipergeométrica no está bien aproximada por una distribución Normal.)
Se convierte a su p-valor para una normal puntuación Z ("número de desviaciones estándar").
Se redondea la puntuación Z para el entero más próximo: "excede de tres desviaciones estándar," "excede de cinco desviaciones estándar," y "excede de seis desviaciones estándar." (Debido a que algunas de estas puntuaciones Z de la vuelta a la up a más desviaciones estándar, no puedo justificar la "supera"; todo lo que puedo hacer es citar.)
En la denuncia de estos integral puntuaciones Z se convierte de nuevo a los valores de p! De nuevo la distribución Normal estándar se utilizó.
Estos valores de p son descritas (posiblemente de una manera engañosa) como "la probabilidad de que este resultado se produjo de acuerdo a la ocasión."
Para apoyar esta especulación, tenga en cuenta que los valores de p para el Test Exacto de Fisher en los tres casos son aproximadamente $1/1280$, $1/565000$, y $1/58000000$. Estos se basan en asumir las piscinas de $730$, $1160$, y $130$ correspondiente a "más de" $730$, $1160$, y $130$, respectivamente. Estos números se han normales score Z de $-3.16$, $-4.64$, y $-5.52$, respectivamente, que cuando se redondeadas son tres, cinco, y seis desviaciones estándar, exactamente los números que aparecen en la queja. Que corresponden (una cola) p-valores de $1/741$, $1/3500000$, y $1/1000000000$: precisamente los valores citados en la denuncia.
Aquí hay algunos R
código utilizado para realizar estos cálculos.
f <- function(total, percent.asian, hired.asian, hired.non.asian) {
asian <- round(percent.asian/100 * total)
non.asian <- total-asian
x <- matrix(c(asian-hired.asian, non.asian-hired.non.asian, hired.asian, hired.non.asian),
nrow = 2,
dimnames=list(Race=c("Asian", "non-Asian"),
Status=c("Not hired", "Hired")))
s <- fisher.test(x)
s$p.value
}
1/pnorm(round(qnorm(f(730, 77, 1, 6))))
1/pnorm(round(qnorm(f(1160, 85, 11, 14))))
1/pnorm(round(qnorm(f(130, 73, 4, 17))))