33 votos

¿Se puede tener un 93,75% de confianza a partir de una muestra aleatoria de sólo cinco personas de una población de 10 000?

Hace poco leí este pasaje en una página web y no me salen las cuentas.

En general, dice que se puede tener un 93,75% de seguridad de tener el verdadero parámetro de la mediana dentro de un intervalo, obtenido a partir de una muestra aleatoria de 5 de una población de 10 000.

¿Podría alguien guiarme para obtener este valor? Aquí está el pasaje original:

Imagina por un momento que eres el responsable de la toma de decisiones de una gran empresa con 10.000 empleados. Está pensando en automatizar parte de alguna actividad rutinaria, como programar reuniones o preparar informes de situación. Pero te enfrentas a mucha incertidumbre y crees que necesitas recopilar más datos. En concreto, una cosa que está buscando es cuánto tiempo dedica cada día a desplazarse el empleado tipo.

¿Cómo reuniría estos datos?

Podrías crear lo que esencialmente sería un censo en el que encuestarías a cada uno de los 10.000 empleados. Pero sería muy laborioso y costoso. Probablemente no le interese complicarse tanto la vida. Otra opción es obtener una muestra, pero no está seguro de cuál debe ser el tamaño de la muestra para que sea útil.

¿Qué pasaría si le dijeran que puede obtener suficiente información para tomar una decisión tomando una muestra de sólo cinco personas?

Supongamos que elige al azar a cinco personas de su empresa. Por supuesto, es difícil que los humanos sean completamente aleatorios, pero supongamos que el proceso de selección es lo más aleatorio posible.

Luego, digamos que pides a estas cinco personas que te den el tiempo total, en minutos, que dedican cada día a esta actividad. Los resultados son: 30, 60, 45, 80 y 60 minutos. A partir de ahí, podemos calcular la mediana de los resultados de la muestra, es decir, el punto en el que exactamente la mitad de la población total (10.000 empleados) está por encima de la mediana y la otra mitad por debajo.

¿Es suficiente información?

Mucha gente, ante esta situación, diría que la muestra es demasiado pequeña, que no es "estadísticamente significativa". Pero mucha gente no sabe lo que significa estadísticamente significativo.

Volvamos al escenario. ¿Qué probabilidades hay de que la mediana del tiempo dedicado a esta actividad por 10.000 empleados se sitúe entre 30 minutos y 80 minutos, los extremos inferior y superior, respectivamente, de la encuesta de cinco empleados?

Cuando se les pregunta, la gente suele responder que en torno al 50%. Algunos llegan incluso al 10%. Al fin y al cabo, tiene sentido: en un año hay 10.000 empleados e innumerables desplazamientos individuales. ¿Cómo es posible que una muestra que no se considera estadísticamente significativa pueda acercarse?

Pues bien, he aquí la respuesta: las probabilidades de que la mediana de tiempo empleado de la población de 10.000 empleados se sitúe entre 30 minutos y 80 minutos es de un asombroso 93,75%.

En otras palabras, se puede estar muy seguro de que la mediana del tiempo empleado se sitúa entre 30 y 80 minutos, con sólo preguntar a cinco personas de cada 10.000 (o 100.000, o 1.000.000 son las mismas matemáticas).

De : https://hubbardresearch.com/two-ways-you-can-use-small-sample-sizes-to-measure-anything/

70voto

bheklilr Puntos 113

Ignoremos las cifras por un momento. Si extraemos cinco observaciones de la población, la probabilidad de que las cinco observaciones estén por encima de la mediana es $\left({1\over 2}\right)^5 = 1/32 = 0.03125$ y lo mismo para la probabilidad de que las cinco observaciones estén por debajo de la mediana. Como los sucesos "por encima de la mediana" y "por debajo de la mediana" se excluyen mutuamente, podemos calcular la probabilidad de que las cinco observaciones estén totalmente por encima de la mediana o totalmente por debajo de la mediana como la suma de las probabilidades: $0.03125 + 0.03125 = 0.0625$ . En consecuencia, la probabilidad de que una muestra "encierre" la mediana es simplemente $1 - 0.0625 = 0.9375$ .

Una vez extraída la muestra, por supuesto, las probabilidades ya no se aplican, pero se puede construir una $93.75\%$ intervalo de confianza para la mediana de la forma obvia utilizando las observaciones mayor y menor.

26voto

AdamSane Puntos 1825

Sí, esto realmente funciona, bajo ciertas condiciones, con un par de advertencias

  1. Selección aleatoria: No se puede pedir cualquier 5 personas. Tendría que seleccionarse aleatoriamente de la población para cuya mediana se desea obtener un intervalo.

  2. Entender qué significa un intervalo de confianza. El intervalo para un parámetro tendrá un cobertura ... pero eso no se corresponde necesariamente con su grado de confianza personal ... confianza personal no es lo mismo que cobertura.

    En concreto, ese 93,75% es una probabilidad frecuentista, una proporción a largo plazo. En términos generales, si se utiliza la misma metodología muchas, muchas veces, alrededor del 93,75% de esos intervalos incluirán la mediana de la población.

  3. El cálculo de la cobertura se basa en el supuesto de respuestas continuas.

  4. No es necesariamente muy útil; el rango de 5 valores tenderá a ser bastante amplio.

El cálculo de la cobertura es matemáticamente sencillo (véase el último párrafo más abajo), pero también es fácil de ver mediante simulación. Por ejemplo, aquí hay una simulación rápida en R:

 mean(replicate(1000000,between(range(runif(5)),0.5)))
 [1] 0.937464

(donde between es justo: function(x, m) x[1]<m & x[2]>m si lo hicieras para una variable discreta querrías <= y >= y para definir que tu intervalo sea cerrado; no importa en el caso continuo)

En realidad, no importa lo grande que fuera la población; este cálculo utiliza efectivamente una población infinita. Una población pequeña no tendría una probabilidad menor.

He utilizado la distribución uniforme como fuente de números aleatorios continuos, pero el mismo resultado se aplicaría a cualquier otra distribución continua, ya que las relaciones de orden no se ven alteradas por ninguna transformación monótona.

Con una variable continua, la probabilidad de que todos los valores estén a la izquierda de la mediana de la población sería $\frac12^5 = \frac{1}{32}$ . Del mismo modo para que todos estén a la derecha. En consecuencia, la cobertura del intervalo de 5 valores seleccionados al azar es $\frac{15}{16} = 0.9375$ .

22voto

Matt Puntos 588

Las otras respuestas lo tienen exactamente correcto, pero explicaré por qué parece tan sorprendente. El truco está en que la forma en que se plantea el problema oculta un poco los objetivos. Sabemos que tenemos una muestra pequeña y un IC de alta confianza, pero el problema pasa por alto el hecho de que cuando se eligen sólo 5 individuos, la amplitud del intervalo "max-min" suele ser bastante grande . No debería sorprendernos que podamos afirmar con seguridad que la mediana se encuentra dentro de un rango muy amplio. Es probable que estemos entrando en el territorio de "estadísticamente significativo, pero prácticamente inútil". Incluso las muestras muy pequeñas pueden utilizarse para llegar a conclusiones de confianza estadística arbitraria simplemente relajando la anchura del intervalo probado. En este caso, el enfoque de muestreo nos da naturalmente un intervalo grande, que podría ser la parte sorprendente.

Una reacción instintiva podría ser pensar que un tamaño de muestra pequeño y un IC de alta confianza son incompatibles y no pueden observarse juntos. Pero dado cualquier tamaño de muestra, se puede construir un IC con la confianza que se desee, siempre que sea lo suficientemente amplio. Lo sorprendente aquí es la amplitud del rango que se obtiene, por término medio, cuando se seleccionan sólo 5 individuos de la población. Si se eligen 5 individuos de cualquier distribución, se obtiene un intervalo que cubre, de media, la parte central de la distribución. dos tercios ¡de la población! Y como este método tiende a situar el intervalo más cerca del centro que de los extremos de los valores posibles, la probabilidad de contener al individuo mediano es aún mayor que el porcentaje de la población cubierto.

Con ese conocimiento, no debería ser sorprendente definir un rango utilizando un método que suele cubrir a la mayoría de la población y estar seguro de que la mediana se encuentra en ese intervalo. Sí, tenemos un método que genera de forma fiable un intervalo que contiene la mediana, pero ese intervalo es tan grande que normalmente también contiene la mayoría de los demás valores observados. Ya es improbable elegir 5 individuos y encontrar un rango que cubra menos del 50 por ciento de la población, y aún menos probable que ese rango submayoritario caiga enteramente a un lado de la mediana, que es la única manera de evitar que contenga la mediana.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X