5 votos

Distribución esperada de sorteos aleatorios

Tengo una pregunta de dos partes;

Primera Parte:

Tengo una urna con 20 bolas, 2 de esas bolas son de color púrpura, y me tire 6 bolas al azar. Soy testigo de 100 realizaciones de este proceso.

Dada la frecuencia observada en el que me llamó la púrpura bolas, ¿cómo puedo saber si realmente estoy tirando bolas al azar? También, dado que hay 2 bolas de color púrpuras, tengo una corazonada de que si el morado bolas se sacó disproprionately, espero que tanto el morado bolas es arrancado (es decir, estoy más interesado en ver si las 2 bolas de color púrpuras son sacados de manera desproporcionada de lo que soy si 1 púrpura de la bola se sale con más frecuencia de lo esperado).

Segunda Parte:

Tengo una urna con un número variable de bolas, un número variable de bolas de color púrpuras dentro de esa urna, y un número variable de sorteos. Soy testigo de 100 realizaciones de este proceso, y observo en cada realización de cuántas bolas hay, cuántas de esas pelotas eran de color púrpura, y cuántas bolas me sacó de la urna.

Mismas preguntas; Dada la frecuencia observada en el que me llamó la púrpura bolas, ¿cómo puedo saber si realmente estoy tirando bolas al azar? Otra vez estoy más interesado en ver si las frecuencias más altas de color púrpura con pelotas, son desproporcionadamente dibujado que estoy a ver si 1 morado balón se dibuja sucede más de lo esperado por azar.

(Estoy abierto a sugerencias para el título de la pregunta y etiquetas)

Editar:

Srikant sugirió que podría necesitar para hacer la distribución de la hipótesis acerca de mis variables, que estoy dispuesto a hacer.

Digamos que el número de bolas en la urna es uniforme entre los 20 y los 30, el número de púrpura bolas es uniforme entre 0 y 4, y el número de sorteos es uniforme entre los 6 y 12.

Ver mi respuesta que describe mi motivación para hacer esta pregunta.

3voto

jldugger Puntos 7490

La frecuencia esperada de la observación de $k$ púrpura bolas en $d$ sorteos (sin reemplazo) de una urna de $p$ púrpura y pelotas de $n-p$ otras bolas se obtiene al contar y es igual a

$$\frac{{p \choose k} {n-p \choose d-k} }{{n \choose d}}.$$

Prueba de una muestra (de decir $100$) experimentos de este tipo con un chi-cuadrado de la estadística utilizando estas probabilidades como el de referencia.

En el segundo caso, integrar sobre el antes de distribuciones. No es agradable la fórmula para que, pero la integración (en realidad, una suma de estas variables discretas) puede ser llevada a cabo exactamente si lo desea. En el ejemplo dado en la edición de la sección -- independiente distribuciones uniformes de $n$ $20$ $30$(por lo tanto, tiene un uno en 11 de probabilidad de ser cualquier valor entre $20$ $30$ incluido), de $p$ $0$ $4$ $d$ $6$ % # % -- el resultado es una distribución de probabilidad sobre los posibles números de morados ($12$) con valores

$0, 1, 2, 3, 4$

$0: 69728476151/142333251060 = 0.489896$

$1: 8092734193/24540215700 = 0.329774$

$2: 36854/258825 = 0.14239$

$3: 169436/4917675 = 0.0344545$.

El uso de una prueba de chi-cuadrado para esta situación, también. Como de costumbre cuando la realización de chi-cuadrado pruebas, usted va a querer a tanto alzado de los últimos dos o tres categorías en una sola, porque sus expectativas son menos de $4: 17141/4917675 = 0.00348559$ ($5$ repeticiones).

No hay ningún problema con valores cero.


Editar (en respuesta a una pregunta de seguimiento)

Las integraciones se realizan varias sumas. En este caso, hay algunos antes de la distribución de $100$, antes de la distribución de $n$, y una distribución previa para $p$. Para cada una de las posibles ordenó triple de resultados $d$ juntos dan una probabilidad de $(n,p,d)$. (Con distribuciones uniformes por encima de esta probabilidad es una constante igual a $\Pr(n,p,d)$.) Uno de los formularios de la suma sobre todos los valores posibles de a $1/((30-20+1)(4-0+1)(12-6+1))$ (un triple suma en este caso) de

$(n,p,d)$$

2voto

Judioo Puntos 625

Así que aquí es mi motivación para las preguntas, aunque sé que esto no es necesario, me gusta cuando la gente seguimiento a sus preguntas, así que voy a hacer lo mismo. Me gustaría agradecer a la Srikant y whuber por sus respuestas útiles. (Pido a nadie upvote esto, ya que no es una respuesta a la cuestión, y por tanto whuber y Srikant del merecen estar por encima de esto, y usted debe upvote sus excelentes respuestas.)

El otro día, para un campo de la clase de viaje me senté en el proceso de un tribunal de apelaciones. Varios de los penales los recursos interpuestos antes de ese día de que se trate de cuestiones que rodean a Batson desafíos. Un Batson desafío se refiere a la utilización de la discriminación racial, cuando un abogado utiliza lo que se llama las recusaciones sin causa durante el voir dire proceso de selección del jurado. (Estoy en el Estados Unidos, así que esto está totalmente en el contexto de Estados Unidos el derecho penal).

Dos preguntas, surgió en las deliberaciones que eran de naturaleza estadística.

La primera pregunta era la probabilidad de que dos de dos asiáticos miembros del jurado (el morado bolas) sentado en la actualidad en el venire panel (la urna que consiste en el número total de bolas) serían seleccionados al azar (el número total de las recusaciones sin causa utilizado es igual al número de bolas extraídas). El abogado en este caso indicó que la probabilidad de que ambas Asiático de los miembros del jurado será seleccionado se $1/28$. No tengo los materiales de los abogados que presentó a la corte de apelaciones, así que no sé cómo el abogado calcula esta probabilidad. Pero esto es básicamente mi pregunta #1, por lo que da la fórmula para la distribución Hipergeométrica he calculado la probabilidad esperada dado,

$n = 20$ El número de miembros del jurado sentado en el venire panel

$p = 2$ El número de Asiáticos miembros del jurado sentado en el venire panel, ambos de los cuales fueron recogidos

$d = 6$ El número de las recusaciones sin causa de utilizar a un abogado

lo que lleva a un valor esperado de

$$\frac{\binom{p}{p} \binom{n-p}{d-p}}{\binom{n}{d}}=\frac{\binom{2}{2} \binom{20-2}{6-2}}{\binom{20}{6}}=\frac{3}{38}.$$

*nota: estos son mis mejores estimaciones de los valores basados en lo que yo sé del caso, si yo tuviera el registro de la corte podía saber con certeza. Los valores calculados utilizando Wolfram Alpha.

Aunque el corte es raro para establecer una línea brillante norma que establece el umbral de probabilidad que establece una presunción prima facie caso de la discriminación racial, en menos de un juez pensó que el uso de este tipo de estadísticas es aplicable a la determinación de la validez de un Batson reto.

En este caso no había mucha duda en los ojos de la corte que los Asiáticos miembros del jurado tuvieron un estereotipo entre los abogados que ellos estaban a favor de la acusación. Pero en un caso posterior, un abogado de defensa utilizado un Batson reto para reclamar un fiscal estaba siendo racista por la eliminación de 4 de las 6 a las mujeres Negras. Los jueces de este recurso fueron un poco escéptico de que las mujeres Negras eran un grupo que tenía un cognoscible estereotipo unido a ellos, pero de nuevo, esto es una cuestión susceptible de conocimientos estadísticos. De ahí mi pregunta #2, 100 observaciones podía determinar si las mujeres negras fueron eliminados utilizando las recusaciones sin causa en una manera no aleatoria. En realidad, los abogados no son la eliminación de los posibles miembros del jurado en base solamente a la raza y el sexo del miembro del jurado, pero eso no impediría que alguien de determinar si el patrón de las recusaciones sin causa al menos aparece o no aparece al azar (aunque no-aleatoriedad no indica necesariamente la discriminación racial).

De nuevo me gustaría dar las gracias tanto a whuber y Srikant por sus respuestas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X