14 votos

Palantir Asiática de discriminación caso: ¿cómo eran las probabilidades calculadas?

He leído este artículo sobre Palantir del caso donde el Departamento del Trabajo de parto se les acusaba una discriminación en contra de los Asiáticos. ¿Alguien sabe donde llegaron estos estimaciones de probabilidad?

Yo no estoy 1/741 en el punto (a).

(a) Para el control de calidad Ingeniero de posición, de un total de más de 730 a los solicitantes calificados-aproximadamente el 77% de los cuales eran de Asia-Palantir contrató a seis no-solicitantes de países Asiáticos y sólo uno Asiático solicitante. El impacto adverso calculado por la OFCCP excede de tres desviaciones estándar. La probabilidad de que este resultado se produjo de acuerdo a la ocasión es de aproximadamente uno en 741.

(b) Para el Ingeniero de Software de la posición, de un total de más de 1,160 solicitantes calificados-aproximadamente el 85% de los cuales eran de Asia-Palantir contratado el 14 de no-solicitantes de países Asiáticos y sólo el 11 solicitantes de países Asiáticos. El impacto adverso calculado por la OFCCP excede de cinco desviaciones estándar. La probabilidad de que este resultado se produjo de acuerdo a la ocasión es de aproximadamente uno en 3,4 millones de euros.

(c) Para el control de calidad Ingeniero Pasante de posición, de un total de más de 130 aspirantes cualificados-aproximadamente el 73% de los cuales eran de Asia-Palantir contratado 17 de no-solicitantes de países Asiáticos y sólo cuatro solicitantes de países Asiáticos. El impacto adverso calculado por la OFCCP excede de seis desviaciones estándar. La probabilidad de que este resultado se produjo de acuerdo a la ocasión es de aproximadamente uno en un mil millones de dólares.

22voto

jldugger Puntos 7490

Voy a revertir la ingeniería de este a partir de la experiencia con casos de discriminación. Yo sin duda puede establecer que los valores de "uno en 741," etc, vino. Sin embargo, tanto la información se pierde en la traducción, ya que el resto de mi reconstrucción se basa en haber visto cómo la gente hacer estadísticas en la sala de audiencias de la configuración. Sólo puedo adivinar algunos de los detalles.


Desde el momento en que las leyes contra la discriminación que se aprobaron en la década de 1960 (Título VI), los tribunales de los Estados unidos han aprendido a mirar a los valores de p y se les compara con los umbrales de $0.05$$0.01$. También han aprendido a mirar a efectos estandarizados, lo que normalmente se conoce como "desviación estándar" y se les compara con un umbral de "dos a tres desviaciones estándar." Con el fin de establecer una presunción prima facie caso de una demanda por discriminación, los demandantes normalmente intento de un cálculo estadístico que muestra un "impacto directo" que exceda estos límites. Si ese cálculo no puede ser admitido, el caso general no se puede avanzar.

Expertos en estadísticas de los demandantes a menudo intentan frase de sus resultados en estos términos familiares. Algunos de los expertos en llevar a cabo una prueba estadística en la que la hipótesis nula expresa "ningún impacto adverso," suponiendo que las decisiones de empleo eran puramente al azar y sin ninguna otra característica de los empleados. (Si se trata de una de una cola o de dos colas alternativa puede depender de los expertos y de las circunstancias). Que, a continuación, convertir el valor p de esta prueba en un número de "desviación estándar", refiriéndose a la distribución Normal estándar--incluso cuando la Normal estándar es irrelevante para la prueba inicial. En esta rotonda manera que la esperanza de comunicar sus conclusiones claramente al juez.

El favorito de la prueba para datos que pueden ser resumidos en las tablas de contingencia es la Prueba Exacta de Fisher. La aparición de "Exacto" en su nombre es particularmente agradable a los demandantes, porque connota un estadístico de la determinación de que se ha realizado sin errores (lo que podría ser!).

Aquí, entonces, es mi (especulativo reconstrucción) del Departamento de Trabajo de los cálculos.

  1. Se corrió la Prueba Exacta de Fisher, o algo similar (como un $\chi^2$ prueba con un p-valor determinado a través de la aleatorización). Esta prueba supone una distribución hipergeométrica como se describe en Mateo Gunn de la respuesta. (Por el pequeño número de personas involucradas en la presente demanda, la distribución hipergeométrica no está bien aproximada por una distribución Normal.)

  2. Se convierte a su p-valor para una normal puntuación Z ("número de desviaciones estándar").

  3. Se redondea la puntuación Z para el entero más próximo: "excede de tres desviaciones estándar," "excede de cinco desviaciones estándar," y "excede de seis desviaciones estándar." (Debido a que algunas de estas puntuaciones Z de la vuelta a la up a más desviaciones estándar, no puedo justificar la "supera"; todo lo que puedo hacer es citar.)

  4. En la denuncia de estos integral puntuaciones Z se convierte de nuevo a los valores de p! De nuevo la distribución Normal estándar se utilizó.

  5. Estos valores de p son descritas (posiblemente de una manera engañosa) como "la probabilidad de que este resultado se produjo de acuerdo a la ocasión."

Para apoyar esta especulación, tenga en cuenta que los valores de p para el Test Exacto de Fisher en los tres casos son aproximadamente $1/1280$, $1/565000$, y $1/58000000$. Estos se basan en asumir las piscinas de $730$, $1160$, y $130$ correspondiente a "más de" $730$, $1160$, y $130$, respectivamente. Estos números se han normales score Z de $-3.16$, $-4.64$, y $-5.52$, respectivamente, que cuando se redondeadas son tres, cinco, y seis desviaciones estándar, exactamente los números que aparecen en la queja. Que corresponden (una cola) p-valores de $1/741$, $1/3500000$, y $1/1000000000$: precisamente los valores citados en la denuncia.


Aquí hay algunos R código utilizado para realizar estos cálculos.

f <- function(total, percent.asian, hired.asian, hired.non.asian) {
  asian <- round(percent.asian/100 * total)
  non.asian <- total-asian
  x <- matrix(c(asian-hired.asian, non.asian-hired.non.asian, hired.asian, hired.non.asian),
              nrow = 2,
              dimnames=list(Race=c("Asian", "non-Asian"),
                            Status=c("Not hired", "Hired")))
  s <- fisher.test(x)
  s$p.value
}
1/pnorm(round(qnorm(f(730, 77, 1, 6))))
1/pnorm(round(qnorm(f(1160, 85, 11, 14))))
1/pnorm(round(qnorm(f(130, 73, 4, 17))))

5voto

Martin Robins Puntos 1893

Cómo calcular pvals el uso correcto de la distribución hipergeométrica:

Dibujo de $k$ éxitos en $n$ ensayos sin reemplazo de un conjunto con $K$ éxitos en medio de $N$ total de artículos se siga la distribución hipergeométrica.

Por un lado la prueba, en MATLAB, puede llamar a pval = hygecdf(k, N, K, n); o, en este caso, pval = hygecdf(1, 730, 562, 7) que se acerca .0007839.

La media y la desviación estándar está dada por:

$$ \mu = n \frac{K}{N} \quad \quad \quad s = \sqrt{n \frac{K}{N} \frac{N - K}{N} \frac{N - n}{N-1}}$$ Por lo tanto estamos -3.957 desviaciones estándar fuera de la media.

He intentado varias cosas para replicar los p-valores (por ejemplo. hipergeométrica cdf, $\chi^2$ prueba, la prueba z), pero no puedo obtener una coincidencia exacta. (Actualización: WHuber la respuesta tiene un algoritmo que produce una coincidencia exacta... es de miedo esas cosas!)

Buscando las fórmulas de la OFCCP puede usar, este sitio que he visto tal vez puede ser útil: http://www.hr-software.net/EmploymentStatistics/DisparateImpact.htm

Resumen de algunos de los cálculos:

$$ \begin{array}{rrrr} \text{Number and method} & \text{Part A} & \text{Part B} & \text{Part C} \\ \text{PVal from hypergeometric CDF} & \text{7.839e-04} & \text{1.77e-06} & \text{1.72e-08}\\ \chi^2 \text{ stat} & 15.68 & 33.68 & 37.16\\ \chi^2 \text{ pval} & \text{7.49e-05} & \text{6.47e-09} & \text{1.09e-09} \\ \text{Pval from above document} & .00135 & \text{2.94e-07} & \text{1.00e-09} \end{array} $$

For $\chi^2$ stat I used the standard $\sum \frac{(\text{espera} - \text{real})^2}{\text{espera}}$ más de las cuatro celdas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X