La otra noche estaba con unos amigos y alguien puso una lista de reproducción en aleatorio, donde las canciones se extraen uniformemente al azar de una lista de reproducción fija. La persona que preparó la lista se olvidó de cuántas canciones contenía, así que surgió el tema de cómo calcular el tamaño de la lista basándonos únicamente en lo que oímos.
Se nos ocurrieron algunas ideas de alto nivel sobre cómo hacerlo. Por ejemplo, utilizando ideas de la paradoja del cumpleaños, pensamos que podíamos escuchar hasta que oyéramos una canción repetida por primera vez y, a partir de ahí, hacer una estimación de cuántas canciones había en total en la lista de reproducción. También pensamos que podríamos escuchar durante mucho tiempo y construir un histograma de frecuencias del número de veces que se ha reproducido cada canción, y luego utilizar el hecho de que debería tener un aspecto de distribución normal para obtener la media y la varianza y, a partir de ahí, estimar el número total de canciones de la lista.
Ninguno de nosotros es estadístico ni tiene mucha formación en aprendizaje automático, pero sospecho que probablemente se trate de un problema bien estudiado y que hay algunas técnicas realmente buenas que podemos utilizar para estimar el tamaño de la lista de reproducción.
¿Existe una buena familia de técnicas para estimar el tamaño de la lista de reproducción? Desde un punto de vista práctico, ¿sería alguna de estas técnicas relativamente fácil de calcular sin ordenador ni calculadora?
Gracias.
4 votos
Esto es interesante y creo que se trata esencialmente de un problema de "captura y recaptura", que se plantea en ecología cuando se quiere estimar el tamaño de las poblaciones. Esto podría darle un lugar para empezar a buscar si alguien aquí no tiene una respuesta.
4 votos
De hecho, se trata exactamente de un problema de recaptura de captura, que puedes consultar en es.wikipedia.org/wiki/Marca_y_recaptura . Iba a publicar una respuesta basada en esto, pero creo que el artículo es suficiente para obtener una comprensión de los métodos básicos y la asintótica de lo bien que funcionan en términos de número de muestras y el tamaño total de la población.
1 votos
@user2566092, esto no es un problema estándar de recaptura de captura, por dos razones. Primero, cada "visita" captura un solo elemento de la población. En segundo lugar, hay muchas visitas.
0 votos
Esta fuente llama a esta pregunta precisa problema de Siobhan, pero por desgracia está detrás de un paywall.
1 votos
@vadim123 Debería tener acceso a ese documento mientras estoy en el trabajo, así que tal vez le dé una leída y vea si puedo resumir las ideas principales aquí.
1 votos
Esta página web ofrece un método para determinar el tamaño más probable de la lista de reproducción, dado el número total de canciones escuchadas y el número de las que son distintas.
0 votos
15 personas piensan que esta pregunta está bien investigada. Chicos, vamos
1 votos
Parece suponer que cada elección es uniformemente aleatoria e independiente de las anteriores. Algunos algoritmos de barajado no funcionan así porque quieren imponer límites superiores e inferiores a la duración entre repeticiones.
3 votos
@kasperd Oh, definitivamente. Me imaginé que haría esa suposición simplificadora para hacer el problema matemáticamente manejable :-)
0 votos
¿Relacionados? plus.maths.org/content/kissing-frog-mathematicians-guide-mating