Tengo una dificultad con el siguiente problema de distribución hipergeométrica multivariante. El escenario es el habitual, una urna contiene un total de $M$ bolas de $K$ colores únicos, con $N_1$ bolas de color 1, $N_2$ bolas de color 2, ..., $N_K$ bolas de color $K$ s.t. $N_1+N_2...+N_K = M$ . ¿Cuál es la probabilidad de que en una muestra de tamaño $n$ (sin reemplazo), la bola extraída en último lugar tiene un color no muestreado antes. Para simplificar, podemos suponer que $N_1=N_2=...=N_K=N$ es decir $M=KN$ .
He estado tratando de ver casos particulares con $K=2$ y $K=3$ (2 o 3 colores) con diferentes valores de tamaño de muestra, $n$ esperando poder generalizar las fórmulas para un número arbitrario de $K$ y $n$ . Así, por ejemplo, para $K=2$ y cualquier valor de $n$ Demostré que la probabilidad en cuestión podía hallarse mediante $K \cdot \frac{{N_1 \choose n-1}{N_2 \choose 1}}{n {M \choose n}}$ . Para $K=3$ podemos tener dos casos diferentes: a) sólo se muestrean 2 de los tres colores disponibles (con $n-1$ bolas del mismo color y 1 bola de un segundo color). La probabilidad deseada es entonces $K(K-1)\frac{{N_1 \choose 2}{N_2 \choose 0}{N_3 \choose 1}}{n {M \choose 3}}$ . Y el caso b) se muestrean los tres colores (1 bola de cada uno), entonces la probabilidad deseada es $K(K-1) \frac{{N_1 \choose 1}{N_2 \choose 1}{N_3 \choose 1}}{n{M \choose 3}}$ y la respuesta final es la suma de (a) y (b).
¿Le parece razonable esta lógica? Obviamente, al aumentar los valores de $k$ y $n$ el número de casos que hay que seguir también aumentará, pero parece que cada nuevo caso puede simplificarse en (o representarse por) un escenario previamente elaborado. En definitiva, parece que al final podré encontrar alguna relación recursiva pero después de un tedioso trabajo. Cualquier idea será muy apreciada. Más concretamente, ¿es éste un buen camino a seguir? Si es así, ¿hay algún atajo que pueda tomar? ¿Hay algún enfoque completamente diferente que pueda probar? Gracias, de antemano, Tamar