Tengo unos datos y su distribución en forma de histograma. Digamos por ejemplo que hay los siguientes 20 datos:
- 3 veces al A
- 5 veces a B
- 4 veces al C
- 4 veces al D
- 3 veces al E
- 1 veces a F
Ahora quiero eliminar, por ejemplo, 5 datos elegidos al azar. ¿Cómo se puede calcular la probabilidad de que un tipo de valor se elimine por completo? Por ejemplo, que se eliminen las tres A o las cinco B.
Mi planteamiento sería calcular para cada tipo de valor la probabilidad de eliminar este tipo concreto contando las posibilidades de elegir 5 elementos de datos que incluyan, por ejemplo, las tres A. Después dividiría este recuento por el número de posibilidades de elegir 5 datos de un total de 20. Al final sumaría todas estas probabilidades y eliminaría de nuevo todas las probabilidades. Al final, sumaría todas estas probabilidades y eliminaría de nuevo todas las probabilidades contadas varias veces. Por ejemplo P(A o F eliminado) = P(A eliminado) + P(F eliminado) - P(A y F eliminado).
Pero si me imagino un histograma grande, esto sería un cálculo muy complejo. Así que mi pregunta es: ¿Puede haber una manera mejor?