Aquí es un trabajo conjunto sobre el problema, con un resumen de los distintos enfoques. Se llama Valor Distinto de Estimación en la literatura.
Si tuviera que hacer esto por mí mismo, sin necesidad de leer fantasía papeles, me gustaría hacer esto. En la construcción de modelos de lenguaje, a menudo uno tiene que calcular la probabilidad de observar una desconocida palabra, dado un montón de texto. Una muy buena aproximación a la solución de este problema para los modelos de lenguaje, en particular, es utilizar el número de palabras que se produjo exactamente una vez, dividido por el número total de fichas. Se llama la Buena Estimación de Turing.
Vamos a u1 ser el número de valores que se produjo exactamente una vez en una muestra de m elementos.
P[new item next] ~= u1 / m.
Sea u el número de elementos únicos en su muestra de tamaño m.
Si, por error, se asume que el "nuevo elemento siguiente" tasa de no disminuir, ya que tienes más datos, a continuación, utilizando una Buena Turing, tendrás
total uniq set of size s ~= u + u1 / m * (s - m)
Esto tiene un poco de mal comportamiento como u1 se vuelve muy pequeño, pero que podría no ser un problema para usted en la práctica.