21 votos

¿Por qué considerar el muestreo sin reemplazo en una aplicación práctica?

El muestreo con reemplazo tiene dos ventajas sobre el muestreo sin reemplazo, tal y como yo lo veo:

1) No hay que preocuparse por la corrección de la población finita.

2) Existe la posibilidad de que los elementos de la población se extraigan varias veces - entonces puede reciclar las medidas y ahorrar tiempo.

Por supuesto, desde el punto de vista académico hay que investigar ambos métodos. Pero desde un punto de vista práctico, no veo por qué habría que considerar el muestreo sin reemplazo, dadas las ventajas de los métodos con reemplazo.

Pero soy un principiante en estadística, así que puede haber muchas buenas razones por las que sin reemplazo podría ser la opción superior, al menos para casos de uso específicos. Por favor, ¡no me confundan!

3 votos

Sugerencia: considere cuál es el efecto de aplicar la corrección por población finita y por qué puede ser ventajoso. (Tenga en cuenta también que (1) hacer sumas es casi siempre menos problemático y costoso que recoger datos; (2) si puede distinguir los individuos no debería "reciclar" las mediciones, sino basar la inferencia sólo en los individuos distintos).

0 votos

Sinceramente, no entiendo ninguna de sus afirmaciones. El CPF compensa las consecuencias numéricas de la falta de independencia de las mediciones. Pero no sé por qué esto es ventajoso. (1) ¿Qué relación tiene esto con mi pregunta? (2) ¿Por qué "no debería" reciclar una medición? ¿Hacerlo no es la consecuencia lógica directa de haber extraído casualmente dos veces el mismo elemento al realizar un muestreo con reemplazo?

18voto

Bill Puntos 3605

Ampliando la respuesta de @Scortchi . . .

Supongamos que la población tiene 5 miembros y usted tiene presupuesto para tomar una muestra de 5 individuos. Te interesa la media poblacional de una variable X, una característica de los individuos de esta población. Podrías hacerlo a tu manera, y tomar una muestra aleatoria con reemplazo. La varianza de la media muestral será V(X)/5.

Por otro lado, supongamos que se toman muestras de los cinco individuos sin reemplazo. Entonces, la varianza de la media muestral es 0. Has muestreado toda la población, cada individuo exactamente una vez, por lo que no hay distinción entre "media muestral" y "media poblacional". Son la misma cosa.

En el mundo real, debería saltar de alegría cada vez que tenga que hacer la corrección de la población finita porque (redoble de tambores ) hace que la varianza de su estimador disminuya sin que tenga que recoger más datos. Casi nada hace esto. Es como magia: magia de la buena.

Diciendo exactamente lo mismo en matemáticas (prestar atención al <, y asumir que el tamaño de la muestra es mayor que 1): \begin {Ecuación} \textrm {corrección de muestra finita} = \frac {N-n}{N-1} < \frac {N-1}{N-1} = 1 \end {Ecuación}

Corrección < 1 significa que la aplicación de la corrección hace que la varianza descienda, porque se aplica la corrección multiplicándola por la varianza. Varianza ABAJO == bueno.

En la dirección opuesta, alejándose por completo de las matemáticas, piense en lo que está preguntando. Si quieres aprender sobre la población y puedes tomar una muestra de 5 personas de ella, ¿te parece probable que aprendas más si te arriesgas a tomar una muestra del mismo tipo 5 veces o te parece más probable que aprendas más si te aseguras de tomar una muestra de 5 tipos diferentes?

El caso del mundo real es casi lo contrario de lo que dices. Casi nunca se muestrea con reemplazo, sólo cuando se hacen cosas especiales como el bootstrapping. En ese caso, en realidad estás tratando de estropear el estimador y darle una varianza "demasiado grande".

0 votos

Por "bootstrapping" entiendo el uso de un parámetro de la muestra en lugar del parámetro de la población (que realmente tendrías que haber utilizado) para estimar un parámetro de la población. ¿Por qué te interesa "fastidiar" el estimador y darle una varianza "demasiado grande"?

1 votos

@affael Me refiero al bootstrapping no paramétrico. Tomas tu muestra (digamos de tamaño 100), vuelves a tomar una muestra de ella con reemplazo (100 veces dando una muestra bootstrap de tamaño 100), y luego vuelves a calcular tu estimador de interés. Está tratando la muestra como una población de juguete, simulando la extracción de una muestra de la misma y calculando un estimador. Si tomara una muestra de la población de juguete sin reemplazo, copiaría exactamente la población de juguete en la muestra, obteniendo la estimación original como la nueva estimación (es decir, varianza=0). Para evitar esto, entonces se muestrea con reemplazo.

6voto

jdotjdot Puntos 129

La precisión de las estimaciones suele ser mayor en el muestreo sin reemplazo que en el muestreo con reemplazo.

Por ejemplo, es posible seleccionar sólo un elemento $n$ veces cuando el muestreo se hace con reemplazo en un caso extremo. Esto podría conducir a una estimación muy imprecisa del parámetro poblacional de interés. Esta situación no es posible en un muestreo sin reemplazo. Por lo tanto, la varianza suele ser menor en las estimaciones realizadas con el muestreo sin reemplazo.

4voto

kashyap Puntos 176

No creo que las respuestas aquí sean totalmente adecuadas, y parecen argumentar el caso límite en el que tu cantidad de datos es muy baja.

Con una muestra suficientemente grande, esto no es preocupante en absoluto, especialmente con muchas remuestreos bootstrap (~1000). Si he muestreado de la distribución verdadera un conjunto de datos de tamaño 10.000, y remuestreo con 1.000 veces, entonces la varianza que gano (frente a la varianza que obtendría haciendo no sustitución) es totalmente despreciable.

Yo diría que la respuesta más precisa es ésta: el remuestreo sin reemplazo es esencial cuando se estima la confianza de un de segundo orden estadística. Por ejemplo, si estoy utilizando un bootstrap para estimar la incertidumbre que tengo en una medida de dispersión. El sorteo con reemplazo para dicha cantidad puede sesgar artificialmente las dispersiones recuperadas a la baja.

Para un ejemplo concreto con datos reales, si se anima, vea este documento https://arxiv.org/abs/1612.02827

se discute brevemente su pregunta en la página 10

1voto

meds Puntos 271

Pero desde un práctico POV No veo por qué uno consideraría el muestreo sin reemplazo dadas las ventajas de con reemplazo.

En la práctica, el muestreo sin sustitución le ahorra la necesidad de, bueno, hacer sustituciones. Esto tiene dos ventajas:

  1. Puede tomar una muestra más grande y considerarla como varias muestras individuales.

  2. Las sustituciones en el mundo real pueden ser costosas, largas o incluso casi imposibles.

    Supón que eres un poderoso alienígena que toma muestras de la población humana de la Tierra abduciéndolas. ¿Te das cuenta de lo difícil que es realizar un reemplazo? Tendrías que borrarles la memoria, inventar excusas para su ausencia, etc. Es mucho mejor abducir a un grupo de ellos y basar tu análisis estadístico en eso.

0voto

Nick Puntos 6

Tengo un resultado que trata sin reemplazo prácticamente como con reemplazo y elimina todas las dificultades. Tenga en cuenta que con reemplazo los cálculos son mucho más fáciles. Así, si una probabilidad implica p y q, probabilidades de éxito y fracaso, en el caso con reemplazo, la probabilidad correspondiente en el caso sin reemplazo se obtiene simplemente con la sustitución de p^a.q^b por (N-a-b)C(R-a) para cualquier a y b, donde N, R son el número total de bolas y el número de bolas blancas. Recuerde que p se trata como R/N.

K.Balasubramanian

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X