Hace poco leí este pasaje en una página web y no me salen las cuentas.
En general, dice que se puede tener un 93,75% de seguridad de tener el verdadero parámetro de la mediana dentro de un intervalo, obtenido a partir de una muestra aleatoria de 5 de una población de 10 000.
¿Podría alguien guiarme para obtener este valor? Aquí está el pasaje original:
Imagina por un momento que eres el responsable de la toma de decisiones de una gran empresa con 10.000 empleados. Está pensando en automatizar parte de alguna actividad rutinaria, como programar reuniones o preparar informes de situación. Pero te enfrentas a mucha incertidumbre y crees que necesitas recopilar más datos. En concreto, una cosa que está buscando es cuánto tiempo dedica cada día a desplazarse el empleado tipo.
¿Cómo reuniría estos datos?
Podrías crear lo que esencialmente sería un censo en el que encuestarías a cada uno de los 10.000 empleados. Pero sería muy laborioso y costoso. Probablemente no le interese complicarse tanto la vida. Otra opción es obtener una muestra, pero no está seguro de cuál debe ser el tamaño de la muestra para que sea útil.
¿Qué pasaría si le dijeran que puede obtener suficiente información para tomar una decisión tomando una muestra de sólo cinco personas?
Supongamos que elige al azar a cinco personas de su empresa. Por supuesto, es difícil que los humanos sean completamente aleatorios, pero supongamos que el proceso de selección es lo más aleatorio posible.
Luego, digamos que pides a estas cinco personas que te den el tiempo total, en minutos, que dedican cada día a esta actividad. Los resultados son: 30, 60, 45, 80 y 60 minutos. A partir de ahí, podemos calcular la mediana de los resultados de la muestra, es decir, el punto en el que exactamente la mitad de la población total (10.000 empleados) está por encima de la mediana y la otra mitad por debajo.
¿Es suficiente información?
Mucha gente, ante esta situación, diría que la muestra es demasiado pequeña, que no es "estadísticamente significativa". Pero mucha gente no sabe lo que significa estadísticamente significativo.
Volvamos al escenario. ¿Qué probabilidades hay de que la mediana del tiempo dedicado a esta actividad por 10.000 empleados se sitúe entre 30 minutos y 80 minutos, los extremos inferior y superior, respectivamente, de la encuesta de cinco empleados?
Cuando se les pregunta, la gente suele responder que en torno al 50%. Algunos llegan incluso al 10%. Al fin y al cabo, tiene sentido: en un año hay 10.000 empleados e innumerables desplazamientos individuales. ¿Cómo es posible que una muestra que no se considera estadísticamente significativa pueda acercarse?
Pues bien, he aquí la respuesta: las probabilidades de que la mediana de tiempo empleado de la población de 10.000 empleados se sitúe entre 30 minutos y 80 minutos es de un asombroso 93,75%.
En otras palabras, se puede estar muy seguro de que la mediana del tiempo empleado se sitúa entre 30 y 80 minutos, con sólo preguntar a cinco personas de cada 10.000 (o 100.000, o 1.000.000 son las mismas matemáticas).
De : https://hubbardresearch.com/two-ways-you-can-use-small-sample-sizes-to-measure-anything/