Digamos que tienes una urna llena de bolas. Cada bola tiene uno o más colores. Estoy intentando averiguar, dado que sacas E bolas de una urna sin reemplazo, ¿cuál es la probabilidad de que saques todas las bolas de uno o más colores? Creo que lo tengo resuelto para 2 colores, pero más allá de eso, el doble conteo se vuelve problemático, y estoy un poco perdido en cuanto a la forma adecuada de incorporarlo.
He empezado pensando en este problema con dos colores, rojo y verde, y sin bolas de colores mixtos. ¿Cuál es la probabilidad de sacar todas las bolas rojas, R, dadas E extracciones? Bien, podemos obtenerlo a partir de la función de densidad de la función hipergeométrica. Para abreviar, dh(a,b,c,d) es la probabilidad de sacar una bola de un color con b bolas de ese color en la urna, c bolas que no son de ese color, y d extracciones.
La probabilidad de sacar todas las bolas rojas es dh(R, R, G, E). La probabilidad de sacar todas las bolas verdes es dh(G,G,R,E). La probabilidad de sacar todas las rojas O las verdes (ya que no podemos hacer ambas cosas con 2 colores) es dh(R, R, G, E)+dh(G,G,R,E).
Genial. Esto nos lleva a una expresión general fácil para las bolas de un solo color. Sumemos todos los colores, siendo i el número de bolas de color i. T es el número total de bolas.
p(eliminando todos los de 1 o más) = sum(dh(i, i, T-i, E))
Ahora digamos que hay M bolas mezcladas, tanto rojas como verdes. Volvamos a la probabilidad de sacar todas las bolas con rojo.
Aquí tenemos dh(R+M, R+M, G, E). Y podemos dar la vuelta a los Rs y Gs para obtener la misma expresión para G.
¿Podemos sumar estas dos para obtener la respuesta a la probabilidad de sacar todas las bolas con rojo o verde? ¿Tenemos que preocuparnos por la doble contabilidad? Normalmente no en el caso de dos colores solamente. Sólo se pueden sacar todas las bolas rojas o todas las verdes, a menos que se saquen todas las bolas. En ese caso, el doble conteo se convierte en un problema.
¿Cómo puedo derivar un término general que corrija la doble contabilidad con un número C de colores, mezclas que tengan cualquier número de colores en ellas a partir de 2...C, y sorteos E? Supongo que el caso de 1 color por bola es un caso especial. No veo el término de corrección. ¿Qué opinas? Sólo punteros en la dirección correcta sería apreciado.