1 votos

Muestras de una caja negra

Digamos que tengo una caja negra que contiene muchos números (números enteros). La cantidad es muy muy grande y el rango de los números es finito pero desconocido (los números pueden ser repetitivos). Quiero saber cuál sería la cantidad mínima de muestras que puedo tomar al azar de la caja para que los valores sean representativos de la caja negra. Para ello hago lo siguiente: Recojo un conjunto inicial de 10 números, luego determino el mínimo, el máximo, la mediana y la media (parámetros estadísticos). A continuación, recojo un nuevo conjunto de 20 números (un conjunto completamente nuevo) y vuelvo a determinar los parámetros estadísticos. Hago este procedimiento con 30, 40, ....., 1000 muestras. En cada paso recojo un conjunto completamente nuevo (habiendo devuelto el conjunto anterior a la caja y "mezclándolo"). Entonces, diría que la cantidad mínima de muestras es cuando veo que los parámetros estadísticos "no cambian mucho" con el aumento del número de muestras.

Ahora mi pregunta es, qué pasa si modifico el procedimiento anterior de esta manera: Tomo un conjunto inicial de 10 números, luego determino el mínimo, el máximo, la mediana y la media. A continuación recojo una serie adicional de 10 números, para que con la serie anterior pueda tener una serie de 20 números y determinar de nuevo los parámetros estadísticos. A continuación, recoja un 10 números adicionales para que con el conjunto anterior pueda tener un conjunto de 30 números, y de nuevo determinar los parámetros estadísticos. Hago este procedimiento con 30, 40, ....., 1000 muestras. En este caso, en cada paso sólo recojo 10 números adicionales, en lugar de recoger todo el conjunto. De nuevo aquí, la cantidad mínima de muestras es cuando veo que los parámetros estadísticos "no cambia mucho" con el aumento de las muestras.

He visto que haciendo el primer y el segundo procedimiento, obtengo diferentes cantidades mínimas de muestras, así que ¿qué procedimiento sería el correcto para mi propósito, el primero o el segundo?

Cualquier referencia que pueda ayudarme a entenderlo mejor se agradecería.

1 votos

Busque en Google "diseño de muestreo secuencial por grupos". En lugar de adivinar lo que podría funcionar, sería mejor que invirtieras tu tiempo en investigar lo que sí funciona y por qué.

0 votos

@whuber hola, ¿podría recomendarme una conferencia? No encuentro algo que pueda relacionar con mi problema.

0voto

Matt Puntos 588

Cualquiera de los dos conjuntos de 1000 muestras es igualmente representativo de la población subyacente. No importa si las eliges de 10 en 10 o todas a la vez. En el muestreo secuencial, lo único que se ve es que cuando se añaden 10 muestras a una muestra de 990, se termina con algo que parece mucho como las 990 muestras que ya tenías, y que si hubieras seleccionado 1000 muestras completamente nuevas, no obtendrías algo que se pareciera tanto (simplemente porque no estás manteniendo el 99% de los datos iguales). Pero eso no significa que tus 1000 muestras seleccionadas de 10 en 10 sean más representativas que 1000 muestras seleccionadas todas a la vez. De cualquier manera, todo lo que tienes al final es una lista de 1000 muestras aleatorias - esas muestras no se pueden distinguir de ninguna manera (de la lista de muestras, uno no puede distinguir cómo fueron escogidas), así que son indistinguibles en términos de su representatividad también.

0 votos

Gracias. Estoy de acuerdo con lo que has escrito. Mi intención es determinar la cantidad mínima de muestras mirando la convergencia de los parámetros estadísticos frente al número de muestras. Así que si no veo la convergencia con 1000 muestras, entonces ampliaría las evaluaciones hasta 10 000, o más si es necesario. Pero veo que utilizando el segundo procedimiento (añadiendo 10 muestras adicionales), la convergencia es más "fácil" que utilizando el primer procedimiento (un nuevo conjunto de muestras). Así que no sé cuál debo utilizar.

0 votos

@BurNor Cierto, lo que quiero decir es que la convergencia del muestreo secuencial dice más del tamaño de las muestras añadidas que de la convergencia. Si añades 10 muestras a la vez habrá "convergencia" porque estás cambiando la muestra en una fracción progresivamente menor cada vez. Podrías añadir muestras de 5 en 5 o incluso de 1 en 1 y conseguirías la "convergencia" aún más rápido simplemente porque estás cambiando la muestra en una cantidad aún menor. Sin embargo, nada de eso indica que se haya muestreado la población lo suficiente como para estimar algún parámetro como la media dentro de algunos límites.

0 votos

@BurNor Básicamente, ver que 1000 muestras son prácticamente idénticas a las mismas 1000 muestras más una más no es nada sorprendente - añadir una muestra simplemente no puede mover las estadísticas de resumen por mucho. La mejor medida de la variabilidad es observar dos muestras independientes de 1000, y ver cuánto difieren. La simple adición de muestras a una cohorte existente siempre producirá una menor variabilidad, ya que se están comparando dos muestras que son no es independiente entre sí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X