1 votos

Muestra de nombres sin duplicados, sin introducir sesgo

Tengo un conjunto de objetos de personas, cada uno con un ID único y posiblemente un nombre no único. Me gustaría seleccionar una cierta cantidad de ellos y garantizar que la muestra no tenga nombres duplicados. Mi problema es que el método ingenuo, de volver a muestrear cualquier nombre duplicado, resulta en que las personas con nombres no únicos tengan una menor probabilidad de ser seleccionadas. ¿Hay alguna manera de hacer esto sin introducir sesgo?

¡Gracias!

2voto

icelava Puntos 548

Cualquier método que utilices si deseas garantizar nombres no duplicados resultará en que personas con nombres menos comunes tengan una probabilidad más alta de ser muestreadas.

Como experimento mental, supongamos que quieres muestrear $k$ objetos de $n$, pero solo hay $k nombres, por lo que cada nombre debe ser muestreado exactamente una vez. De estos, $k-1$ nombres ocurren $m\geq 2$ veces cada uno, y el nombre número $k$ ocurre solo una vez. (Entonces $n=m(k-1)+1$.) Entonces, cada objeto con un nombre duplicado tiene una probabilidad de $\frac{1}{m}$ de ser muestreado (porque es miembro de un grupo de tamaño $m$, del cual debe ser muestreado uno, ya que debemos elegir un miembro de cada "grupo de nombres"), y el objeto único con un nombre no duplicado será elegido con certeza, es decir, con probabilidad $1$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X