Benjamin Doerr da (en el capítulo " Análisis de la heurística de búsqueda aleatoria: Tools from Probability Theory" en el libro "Theory of Randomized Search Heuristics", véase el enlace para un PDF en línea) una demostración algo sencilla de
Propuesta Sea $T$ sea el tiempo de parada del proceso de recogida de cupones. Entonces $\Pr[T\le (1-\epsilon)(n-1)\ln n]\le e^{-n^{\epsilon}}$ .
Esto parece dar la asíntota deseada (de la segunda respuesta de @cardinal), pero con la ventaja de ser cierto para todo $n$ y $\epsilon$ .
He aquí un esbozo de prueba.
Esbozo de prueba: Sea $X_i$ sea el caso de que el $i$ -ésimo cupón se recoge en el primer $t$ sorteos. Así, $\Pr[X_i=1]=(1-1/n)^t$ . El hecho clave es que el $X_i$ están correlacionadas negativamente, para cualquier $I\subseteq[n]$ , $\Pr[\forall i\in I, X_i=1]\le\prod_{i\in I}\Pr[X_i=1]$ . Intuitivamente, esto está bastante claro, ya que sabiendo que el $i$ -ésimo cupón del primer $t$ sorteos haría menos probable que el $j$ -ésimo cupón también se extrae en el primer $t$ sorteos.
Se puede demostrar la afirmación, pero ampliando el conjunto $I$ en 1 en cada paso. Entonces se reduce a demostrar que $\Pr[\forall i\in I, X_i=1|X_j=1]\le\Pr[\forall i\in I,X_i=1]$ para $j\notin I$ . Equivalentemente, al promediar, se reduce a mostrar que $\Pr[\forall i\in I, X_i=1|X_j=0]\ge\Pr[\forall i\in I,X_i=1]$ . Doerr sólo da un argumento intuitivo para ello. Una vía para demostrarlo es la siguiente. Se puede observar que condicionado a la $j$ cupón que viene después de todos los cupones en $I$ que la probabilidad de extraer un nuevo cupón de $I$ después del sorteo $k$ hasta ahora es ahora $\frac{|I|-k}{n-1}$ en lugar del anterior $\frac{|I|-k}{n}$ . Así que descomponiendo el tiempo para recoger todos los cupones como una suma de variables aleatorias geométricas, podemos ver que condicionando el $j$ -cupón a continuación $I$ aumenta las probabilidades de éxito, por lo que hacer el condicionamiento sólo hace más probable recoger antes los cupones (por dominancia estocástica: cada variable aleatoria geométrica aumenta, en términos de dominancia estocástica, por el condicionamiento, y esta dominancia puede aplicarse luego a la suma).
Dada esta correlación negativa, se deduce que $\Pr[T\le (1-\epsilon)(n-1)\ln n]\le (1-(1-1/n)^t)^n$ que da el límite deseado con $t=(1-\epsilon)(n-1)\ln n$ .
Nota añadida en la prueba: El enlace anterior está obsoleto. Una nueva versión de este resultado con una demostración completa (es decir, incluyendo la declaración de correlación negativa) se puede encontrar en el Teorema 1.9.3 en B. Doerr. Probabilistic Tools for the Analysis of Randomized Optimization Heuristics. En B. Doerr y F. Neumann, editores, Theory of Evolutionary Computation: Recent Developments in Discrete Optimization, páginas 1-87. Springer, 2020 .