9 votos

¿La distribución de probabilidad de una urna cambia a medida que extraes de ella sin reemplazo en promedio?

Supongamos que tengo una urna que contiene N colores diferentes de bolas y cada color diferente puede aparecer un número diferente de veces (si hay 10 bolas rojas no necesariamente también habrá 10 bolas azules). Si conocemos el contenido exacto de la urna antes de sacar, podemos formar una distribución de probabilidad discreta que nos dice la probabilidad de sacar cada color de bola. Lo que me pregunto es cómo cambia la distribución después de sacar k bolas sin reemplazo de la urna en promedio. Entiendo que a medida que sacamos de la urna podemos actualizar la distribución con el conocimiento de lo que ha sido sacado, pero lo que quiero saber es qué esperaríamos que fuera la forma de la distribución después de haber sacado k bolas. ¿La distribución cambia en promedio o permanece igual? Si no permanece igual, ¿podemos escribir alguna fórmula para lo que esperamos que sea la nueva distribución en promedio después de hacer k extracciones?

1 votos

Puede que esté equivocado - pero esto da la impresión de que uno conoce la distribución previa, pero no tiene información sobre la verosimilitud (además de que k bolas son removidas). En ese caso, asumiría que el posterior es igual al anterior. Para ser justo - hay información de verosimilitud de que el número de bolas ha disminuido, y que (por una bola removida) la distribución es por lo tanto por ejemplo bimodal entre 50% posibilidad de 9 rojas y 10 negras y 50% posibilidad de 10 rojas y 9 negras. Puede que esté equivocado aquí sin embargo.

0 votos

Mi intuición es que es como el último caso que describiste. Aunque no puedo encontrar a nadie hablando sobre este tipo de proceso.

7voto

AdamSane Puntos 1825
  1. "Cálculo directo": Supongamos que hay $n$ bolas de $m$ colores en la urna. Enfoquémonos en la probabilidad de sacar un color en particular, digamos blanco, en el segundo intento. Sea el número de bolas blancas $n_w$. Sea $X_i$ el color de la bola obtenida en el $i$-ésimo intento.

    \begin{eqnarray} P(X_2=W)&=&P(X_2=W|X_1=W)P(X_1=W)+P(X_2=W|X_1=\overline{W})P(X_1=\overline{W})\\ &=&\frac{n_w-1}{n-1}\frac{n_w}{n}+\frac{n_w}{n-1}\frac{n-n_w}{n}\\ &=&\frac{n_w(n-n_w+n_w-1)}{n(n-1)}\\ &=&\frac{n_w}{n}\\ &=&P(X_1=W) \end{eqnarray}

    Por supuesto, este mismo argumento se aplica a cualquier color en el segundo intento. Podemos aplicar el mismo tipo de argumento recursivamente al considerar intentos posteriores.

    [Por supuesto, uno podría realizar un cálculo aún más directo. Considere los primeros $k$ intentos como consistiendo de $i$ bolas blancas y $k-i$ bolas no blancas (con probabilidad dada por la distribución hipergeométrica), y realice el cálculo correspondiente al simple de arriba pero para el intento en el paso $k+1$; se obtiene una simplificación y cancelación similar, pero no es especialmente esclarecedor llevarlo a cabo.]

  2. Un argumento más corto: consideremos etiquetar las bolas al azar con los números $1,2,...,n$, y luego sacarlas en orden etiquetado. La pregunta ahora es "¿Es la probabilidad de que una etiqueta dada, $k$, sea colocada en una bola blanca la misma que la probabilidad de que la etiqueta $1$ sea colocada en una bola blanca?"

    Ahora vemos que la respuesta debe ser "sí" por la simetría de las etiquetas. Similarmente, por la simetría de los colores de las bolas, no importa que hayamos dicho "blanco", por lo que el argumento de que la etiqueta $k$ y la etiqueta $1$ tienen la misma probabilidad se aplica a cualquier color. Por lo tanto, la distribución en el intento $k$ es la misma que en el primer intento, siempre y cuando no tengamos información adicional de los intentos anteriores (es decir, siempre y cuando las bolas sacadas anteriormente no sean vistas).

0 votos

Estrechamente relacionado con tu segundo argumento, hay otro argumento breve: imagina el conjunto de todas las posibles secuencias en las que las bolas pueden ser removidas (por ejemplo, azul primero, luego blanco, luego blanco, ... podría ser una de esas secuencias). Si para cada secuencia en este conjunto intercambiamos los elementos $1^{ro}$ y $k^{ésimo}$, simplemente permutamos el conjunto. Así que para cada secuencia con una bola blanca (o lo que sea) en la posición $k$, hay exactamente una secuencia correspondiente con una bola blanca en la posición $1$. Por lo tanto, la probabilidad de una bola blanca en la posición $k$ o en la posición $1$ debe ser la misma. Creo que esto es esencialmente el argumento de Neil.

0 votos

@Silverfish Sí, al mirarlo, mi segundo argumento es esencialmente del mismo tipo que el argumento de permutación de Neil.

0 votos

Gracias por la explicación. ¡Era exactamente lo que necesitaba ver!

6voto

jldugger Puntos 7490

La única razón por la que no es perfectamente obvio que la distribución permanece inalterada (siempre y cuando quede al menos una bola) es que hay demasiada información. Vamos a eliminar el material distractor.

Ignora, por un momento, el color de cada bola. Concéntrate en una bola. Supongamos que se van a quitar al azar $k$ bolas (sin ser observadas), y luego se sacará una bola $k+1$ que será observada. No importa en qué orden se realice la selección, así que podría observar la primera bola sacada (y luego quitar otras $k$ bolas si insiste). La distribución obviamente no ha cambiado, porque no se verá afectada al quitar las otras $k$ bolas.


Este argumento--aunque perfectamente válido--podría hacer que algunas personas se sientan incómodas. El siguiente análisis podría ser aceptado como más riguroso, porque no nos pide ignorar el orden de selección.

Sigue enfocándote en tu bola. Tendrá una probabilidad $p_k$ de ser seleccionada como la bola $k+1$-ésima. Aunque $p_k$ es fácil de calcular, no necesitamos saber su valor: todo lo que importa es que debe ser el mismo valor para cada bola (porque todas las bolas son equivalentes) y que no sea cero. Pero si fuese cero, ninguna bola tendría probabilidad de ser seleccionada: así que mientras quede al menos una bola, $p_{k}\ne 0$.

Presta atención a los colores nuevamente. Por definición, la probabilidad de que un color particular $C$ sea seleccionado (después de quitar al azar $k$ bolas) es la suma de las probabilidades de todas las bolas de color $C$ dividida por la suma de las probabilidades de todas las bolas originales. Cuando originalmente hay $k_C$ bolas de color $C$ y un total de $n$ bolas, ese valor es

$${\Pr}_k(C) = \frac{k_c p_k}{n p_k} = \frac{k_c}{n}.$$

Cuando $k\lt n$ no depende de $k$, QED.

0 votos

Gracias por el comentario. ¡Me ayudó a entender mejor los procesos subyacentes!

2voto

andynormancx Puntos 234

Deje que la distribución de sacar una sola bola, después de haber sacado $k$ bolas sin reemplazo, tenga una distribución categórica $E(D_k)$ dada la distribución sobre tales distribuciones categóricas $D_k.

Supongo que estás preguntando si $E(D_k)$ es constante.

Creo que lo es. Supongamos que eventualmente sacas todas las bolas. Todas las permutaciones de las bolas son igualmente probables. La probabilidad de sacar inicialmente es $E(D_0)$. Podrías reorganizar tus elecciones a una permutación igualmente probable en la que tu primera bola elegida fue elegida al final, y tu segunda bola elegida fue elegida primero. Esa bola tiene una expectativa de $E(D_1)$, que debe ser igual a $E(D_0)$ debido a la simetría. Por inducción, los $E(D_i)$ son todos iguales.

0 votos

¿Quieres decir que estoy preguntando si $E(D_k)$ es constante para cada k, verdad?

0 votos

@mjnichol correct

0voto

kjetil b halvorsen Puntos 7012

La "distribución esperada" no cambia. ¡Se podría usar un argumento de martingala! Agregaré eso a la respuesta más tarde (actualmente estoy viajando).

La distribución, condicionada a los sorteos anteriores (para los sorteos posteriores) solo cambia cuando realmente observas los sorteos. Si sacas la bola de la urna con la mano fuertemente cerrada y luego la tiras sin observar su color (he utilizado este teatro de manera efectiva como demostración en clase), la distribución no cambia. Este hecho tiene una explicación: la probabilidad se trata de información, la probabilidad es un concepto de información.

Por lo tanto, las probabilidades solo cambian cuando obtienes nueva información (probabilidades condicionales, es decir). Sacar la bola y tirarla sin observarla no te da ninguna nueva información, por lo tanto, no hay nada nuevo sobre lo que condicionar. Por lo tanto, cuando condicionas sobre el conjunto de información actual, que no ha cambiado, la distribución condicional no puede cambiar.

 EDIT

Ahora no daré muchos más detalles a esta respuesta, solo agregaré una referencia: Hosam M. Mahmoud: "Modelos de Urna de Pólya" (Chapman & Hall), que trata modelos de urna como el de esta pregunta, y también esquemas de urnas mucho más generalizados, también utilizando métodos de martingala para obtener resultados límite. Pero los métodos de martingala no son necesarios para la pregunta en esta publicación.

0 votos

La distribución (para los sorteos posteriores) no cambia incluso cuando realmente observas los sorteos. ¿Por qué observar algo debería cambiar algo?

1 votos

@Neil Creo que kjetil se refiere a la distribución condicional en las muestras observadas.

0 votos

@Silverfish: Ah, ya veo. Tienes razón, mis disculpas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X