36 votos

El gusano del coleccionista de cupones

[EDITADO principalmente para informar sobre la respuesta por Kevin Costello (y para mejorar el gp de código al final)]

Doy gracias a Nicolas Dupont para la siguiente pregunta (y por el permiso para difundirlo a más):

Tengo una lista de reproducción con, digamos, $N$ piezas de la música. Mientras que el uso de la opción de reproducción aleatoria (cada pieza es jugar al azar en cada paso), me di cuenta de que, en general, tengo que escuchar un buen montón de veces la misma pieza antes de que la última aparece. Me hace pensar en la siguiente pregunta:

En el momento en que el último no ha oído hablar de la pieza que se escucha es, ¿cuál es la max, en promedio, de número de veces la misma pieza ya ha sido jugado?

No he previamente detectadas esta variante de la cupón colector del problema. Si es nuevo, entonces (el pensamiento de la original el contexto del mundo real origen del problema) me propongo llamar el "cupón coleccionista de gusano".

Es esta, de hecho, una nueva pregunta? Si no, lo que se conoce acerca de lo que ya?

Llamamos a este valor esperado $M_N$. Nicolas observa que el $M_1=1$ y $M_2=2$ (ver abajo), y le pregunta:

Me duda de que existe una fórmula fácil para general $N$ - usted sería capaz de encontrar algo de información sobre ella, por ejemplo, su comportamiento asintótico?

[Bien respondido por Kevin Costello: $M_N$ es asintótica a $e \log N$ as $N \rightarrow \infty$. Por otra parte, la máxima multiplicidad dentro de $o(\log N)$ de %de $e \log N$ con una probabilidad de $\rightarrow 1$. No recuerdo ningún otro caso de una forma natural-derivadas asintótica de la tasa de crecimiento de $e \log N$...]

Recordemos que el estándar de cupón de coleccionista problema pide el valor esperado del número total de baraja hasta que cada pieza ha aparecido al menos una vez. Es bien sabido que la respuesta es $N H_N$ donde $H_N = \sum_{i=1}^N 1/i$ es el $N$-ésimo número armónico. Por lo tanto el valor esperado de la media número de obras de teatro por pista es $H_N$, que crece como $\log N + O(1)$. El valor máximo esperado $M_N$ debe ser al menos tan grande $-$ en hecho más de una vez $N>1$, debido a que una pista se escucha sólo una vez, por lo que el promedio sobre las otras es $(N H_N-1) / (N-1)$. Uno podría pensar que $M_N$ no es mucho más grande, ya que por lo general es sólo el último par de pistas que lleva a la mayoría de la baraja a aparecer. Pero no parece fácil conseguir que la diferencia entre la máxima y la media esperada, incluso asintóticamente. A diferencia de la norma cupón colector del problema, aquí una respuesta exacta parece sin esperanza una vez $N$ está en todos los grandes (ver más abajo), así que me pregunto:

Cómo hace la diferencia $M_N - H_N$ se comportan asintóticamente como $N \rightarrow \infty$?

[Parece que esto era una maniobra de distracción: "Uno podría suponer" plausiblemente que $M_N - H_N$ es eclipsada por $H_N$ grandes $N$, pero por Kevin Costello's respuesta $M_N - H_N$ asintóticamente supera $H_N$ por un factor de $e - 1$, y ese factor es el más complicado de lo que $\lim_{N\rightarrow\infty} M_N/H_N = e$, para el análisis de la diferencia de $M_N-H_N$ no es probable que un enfoque fructífero.]

Aquí están el resto de las pocas cosas que sé acerca de esto:

@ Para cada una de las $N>1$, el valor esperado del número máximo está dada por el convergente $(N-1)$veces la suma $$ M_N = \sum_{a_1,\ldots,a_{N-1} \geq 1} N^{-\!\sum_i \! a_i} \Bigl(\sum_i a_i\Bigr)! \frac{\max_i a_i}{\prod_i a_i!}. $$ En efecto, podemos suponer sin pérdida de generalidad que el $N$-ésimo de la pista se oye el pasado; condicional en este supuesto, la probabilidad de que el $i$-ésimo de la pista que va a ser escuchado $a_i$ tiempos para cada una de las $i<N$ es $N^{-\!\sum_i \! a_i}$ multiplicado por el coeficiente multinomial $(\sum_i a_i)! \big/ \prod_i a_i!$. Numéricamente, estos valores son $$ 2.00000, \quad 2.84610+, \quad 3.49914-, \quad 4.02595\!- $$ para $N=2,3,4,5$.

@ Una forma cerrada para $M_N$ está disponible para $N \leq 3$ y probablemente no más allá. Trivialmente $M_1 = 1$; y N. Dupont ya obtenidos el valor de $M_2 = 2$ evaluando $M_2 = \sum_{a \geq 1} a/2^a$. Pero para $N=1$ e $N=2$ el problema se reduce a la clásica cupón colector del problema. Ya para $N=3$ tenemos una sorpresa: $M_3 = 3/2 + (3/\sqrt{5})$, que tiene una escuela primaria, pero un poco difícil prueba. Para $N=4$, me sale $$ M_4 = \frac73 - \sqrt{3} + \frac4\pi \int_{x_0}^\infty \frac{(2x+1) \, dx}{(x-1) \sqrt{4x^3-(4x-1)^2}} $$ donde $x_0 = 3.43968\!+$ es la más grande de las raíces (reales) de la cúbico $4x^3-(4x-1)^2$. No espero que este para simplificar aún más: la integral es el período de más de una curva elíptica de un diferencial con dos simple polos que no difieren en un punto de torsión. En general se puede reducir el $(N-1)$veces suma a una $(N-2)$veces uno (que es una ruta para el valor de $M_3$ e $M_4$), o a un $(N-3)$veces la integral, pero probablemente no más allá.

@ No es demasiado duro para simular este proceso, incluso para la considerablemente mayor $N$. En GP se puede obtener una sola muestra de la distribución desde el código

try(N) = v=vector(N); while(!vecmin(v),v[random(N)+1]++); vecmax(v)

[resulta que uno no necesita llamar a vecmin cada turno:

try(N, m,i)= v=vector(N); m=N; while(m, i=random(N)+1; v[i]++; if(v[i]==1,m--)); vecmax(v)

hace la misma cosa en $\rho+O(1)$ operaciones por shuffle en lugar de $\rho+O(N)$ donde $\rho$ es el costo de una forma aleatoria(N) de la llamada.]

Así, por ejemplo,

sum(n=1,10^4,try(100)) / 10000.

los promedios de 1000 muestras por $M_{100}$; esto toma un par de segundos, y parece dar acerca de $11.7$.

22voto

Jason Baker Puntos 494

Para el asintótica caso: Vamos a $t_1=n \log n - Cn$ e $t_2 = n \log n + Cn$ donde $C$ es poco a poco tiende a infinito. Es un clásico de resultado que como $C$ tiende a infinito la probabilidad de todos los cupones son recogidos a tiempo $t_1$ tiende a $0$, y la probabilidad de todos los cupones son recogidos a tiempo $t_2$ tiende a $1$.

Por lo que el número de pedido en el post original es con alta probabilidad de que se intercala entre la mayoría de recogida de cupón en el momento $t_1$ y la mayoría de recogida de cupón en el momento $t_2$. Esto ha sido estudiado una cantidad justa, aunque a menudo en el lenguaje de equilibrio de carga y bolas-en-contenedores ("si lanzas $m$ bolas en $n$ papeleras, ¿cuál es el número típico de las bolas en la bandeja y con la mayor cantidad de bolas"). En particular, hay un buen análisis de Raab y Steger, que utiliza el segundo método para dar un apretado concentración en el presente. Se sigue por el Teorema $1$ en su papel que en el momento $c n \log n$, la más común de cupón tiene casi seguramente ha sido recopilada $(d_c+o(1)) \log n$ veces $d_c$ es el de mayor tamaño real de la raíz de $$1+x(\log c - \log x +1)-c=0$$

En nuestro caso, tenemos $d_1=e$, por lo que el más común de la canción se han escuchado $(e+o(1))\log n = (e+o(1))H_n$ veces.


En respuesta al comentario: El primer momento parte del cálculo también viene con venir a la concentración de las estimaciones de forma gratuita. En el momento $t_1$, la probabilidad de que hemos visto algunos de cupón al menos $C \log n$ veces puede ser limitada por \begin{eqnarray*} & & \sum_{j=C \log n}^{t_1} n \binom{t_1}{j} n^{-j} (1-\frac{1}{n})^{t_1-j} \\ &\leq& \sum_{j=C \log n}^{t_1} n \left(\frac{e t_1}{ nj}\right)^j (1-\frac{1}{n})^{n \log n + o(\log n)} (1-\frac{1}{n})^{-j} \\ &=& n^{o(1)} \sum_{j=C \log n}^{t_1} \left(\frac{e \log n(1+o(1))}{j}\right)^j \\ &\leq& n^{o(1)} \sum_{j=C \log n}^{t_1} \left(\frac{e}{C}+o(1)\right)^j \end{eqnarray*}

Que debe decaer rápidamente suficiente en $C$ a garantizar la media se encuentra cerca de la concentración.

Los enlaces de los límites de la probabilidad de que el tiempo de finalización de la mentira fuera de $[t_1, t_2]$ también decaimiento bastante rápido (por ejemplo, el cardenal de la respuesta, y de David posteriores comentarios sobre ella).

5voto

Will Sawin Puntos 38407

Deje $X$ el número total de obras de teatro y deje $Y$ el número de obras para la pista con la mayoría de sus jugadas.

Creo que una buena estrategia es estimar

$$E [ Y- X | X = X_0 ]$$

Parece que este implica un problema más sencillo, y que esto va a ser muy plana como una función de la $X$. Así que si tenemos un buen asintótica para esto, probablemente no necesita saber mucho acerca de la distribución de probabilidad de $X$, para calcular su expectativa.

¿Cuál es la distribución de $Y$ condicionada a un determinado valor de $X$? Bueno es solo el azar modelo donde $X_0-1$ bolas caen en $N-1$ papeleras y tomar el máximo del número de bolas en cada bin, condicional en cada bin tener al menos una bola.

Ahora queremos probar algunos de los límites relativos $E [ Y- X | X = X_0 ]$ a $\sqrt{X_0/N-1} \sqrt{\log (N-1)}$ e $\sqrt{X_0/N } \sqrt{\log (N-1)}$ y esas cosas. Sólo estoy pensando en el número de pelotas en una ubicación fija como aproximadamente Gaussiana, y estos Gaussianas como aproximadamente independientes, para obtener estos tipos de figuras. Yo'lll intentar realmente justifican más tarde o, al menos, una cota superior.

Si tenemos un poco de asintótica para $E [ Y- X | X = X_0 ]$ que es aproximadamente lineal en $\sqrt{X_0}$, entonces sólo tenemos que estimar el $E [ \sqrt{X} ]$ que no debería ser muy difícil debido a que la función es apenas cóncava, así que debe estar muy cerca a $\sqrt{ E[X] }$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X