1 votos

Dada una muestra de tamaño N, encontrar el número esperado de colores no vistos previamente después de otras K extracciones

Hay una urna con $B$ bolas de $C$ colores distintos ( $B >> C$ ). Ambos $B$ y $C$ son finitos pero ambos son desconocidos.

Extraigo la muestra $N$ bolas sin reemplazo de la urna y esa es mi única fuente de estadísticas sobre la población general (número de colores distintos en la muestra, bolas por color, etc).

Digamos que saco otra muestra de tamaño $K$ de la urna, de nuevo sin sustitución.

¿Cuál es el número esperado de nuevos colores encontrados (es decir, el número de colores distintos en la muestra $K$ que no se encontraron en la muestra $N$ )?

He intentado resolver el problema utilizando Estimación de frecuencia Good-Turing pero me quedé atascado.

Nota: Como aquí sólo utilizo las frecuencias pequeñas, he omitido la parte de suavización de la estimación.

Aquí está mi intento (utilizando los símbolos del enlace de Wiki):

En el primer sorteo (del total de K), llamémoslo $X_1$ :

  • Probabilidad de dibujar un nuevo color: $$p_{0\_1} = \frac{N_1}{N}$$
  • Probabilidad de dibujar un color visto una vez hasta ahora: $$p_{1\_1} = \frac{2N_2}N$$
  • Valor esperado de los nuevos colores dibujados: $$E(X_1) = 1 * p_{0\_1} + 0 * (other\_frequencies\_drawn)$$

En el segundo sorteo, $X_2$ :

  • Probabilidad de dibujar un nuevo color: $$p_{0\_2} = p_{0\_1}\frac{N_1+1}{N+1} + p_{1\_1}\frac{N_1-1}{N+1} + (1 - p_{0\_1} - p_{1\_1})\frac{N_1}{N+1}$$ Explicando la ecuación anterior, tiene 3 partes ya que parece que sólo nos conciernen 3 eventos:

    • Se ha encontrado un nuevo color en el sorteo anterior (tanto el nominador como el denominador aumentan)
    • No se encontró ningún color nuevo en el sorteo anterior, pero sacamos un color que tenía frecuencia=1, por lo que ahora está en el grupo de frecuencia=2 (el nominador disminuye, el denominador aumenta)
    • No se ha encontrado ningún color nuevo en el sorteo anterior y el color extraído es de frecuencia>1 (el nominador no cambia, el denominador aumenta)
  • Valor esperado del dibujo del nuevo color: $$E(X_2) = 1 * p_{0\_2} + 0 * (other\_frequencies\_drawn)$$

Ahora, el siguiente paso se hará grande (9 partes) y no estoy seguro de si ya debería haber encontrado el patrón, pero realmente no lo veo. Asumiendo que el planteamiento general es correcto, creo que lo que debería hacer ahora es encontrar un patrón de producto como $$E(X_n) = \prod_{i=0}^n something$$ para el número esperado de colores en cada sorteo y luego sumarlos como $$Total = \sum_{i=0}^K E(i)$$ .

¿Es razonable el planteamiento? ¿Hay alguna manera fácil de encontrar el patrón del producto sin ampliarlo más?

0voto

Koinc Puntos 133

He encontrado una respuesta a mi propia pregunta, lo que buscaba exactamente es el Good-Toulmin estimador.

Wiki: https://en.wikipedia.org/wiki/Unseen_species_problem

Papel: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.825.3806&rep=rep1&type=pdf

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X