23 votos

¿Cómo puedo calcular única ocurrencia cuenta a partir de un muestreo aleatorio de los datos?

Digamos que tengo un gran conjunto de $S$ valores que a veces se repita. Deseo para estimar el número total de los únicos valores en el conjunto de gran tamaño.

Si me tomo una muestra aleatoria de $T$ de los valores, y determinar que contenga $T_u$ valores únicos, puedo usar esto para estimar el número de valores únicos en el gran conjunto?

15voto

Jason Abate Puntos 421

Aquí es un trabajo conjunto sobre el problema, con un resumen de los distintos enfoques. Se llama Valor Distinto de Estimación en la literatura.

Si tuviera que hacer esto por mí mismo, sin necesidad de leer fantasía papeles, me gustaría hacer esto. En la construcción de modelos de lenguaje, a menudo uno tiene que calcular la probabilidad de observar una desconocida palabra, dado un montón de texto. Una muy buena aproximación a la solución de este problema para los modelos de lenguaje, en particular, es utilizar el número de palabras que se produjo exactamente una vez, dividido por el número total de fichas. Se llama la Buena Estimación de Turing.

Vamos a u1 ser el número de valores que se produjo exactamente una vez en una muestra de m elementos.

P[new item next] ~= u1 / m.

Sea u el número de elementos únicos en su muestra de tamaño m.

Si, por error, se asume que el "nuevo elemento siguiente" tasa de no disminuir, ya que tienes más datos, a continuación, utilizando una Buena Turing, tendrás

total uniq set of size s ~= u + u1 / m * (s - m) 

Esto tiene un poco de mal comportamiento como u1 se vuelve muy pequeño, pero que podría no ser un problema para usted en la práctica.

1voto

shyam Puntos 4133

La simulación de la estrategia de

Recopilar m muestras aleatorias de tamaño n a partir del conjunto S. Para cada una de las m muestras, calcular el número de u de único valores y dividir por n a normalizar. A partir de la simulación de la distribución de la normalización de u, calcular el resumen de estadísticas de interés (por ejemplo, media, varianza, rango intercuartílico). Multiplicar la simulación de la media de la normalización de la u por la cardinalidad de S para estimar el número de valores únicos.

La mayor son m y n, los más de cerca su simulado significa que va a coincidir con el verdadero número de valores únicos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X