Sección 1.7.2 de Descubrir la estadística con R de Andy Field, et al., al enumerar las virtudes de la media frente a la mediana, afirma:
... la media tiende a ser estable en diferentes muestras.
Esto después de explicar las muchas virtudes de la mediana, por ejemplo
... La mediana no se ve relativamente afectada por las puntuaciones extremas en los extremos de la distribución ...
Dado que la mediana se ve relativamente poco afectada por las puntuaciones extremas, habría pensado que sería más estable en todas las muestras. Por eso me desconcierta la afirmación de los autores. Para confirmarlo, realicé una simulación: generé 1 millón de números aleatorios y tomé muestras de 100 números 1.000 veces y calculé la media y la mediana de cada muestra y, a continuación, calculé la sd de esas medias y medianas de las muestras.
nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)
Como puede ver, las medias están más distribuidas que las medianas.
En la imagen adjunta el histograma rojo es para las medianas - como se puede ver es menos alto y tiene una cola más gorda que también confirma la afirmación del autor.
Sin embargo, ¡esto me deja boquiabierto! ¿Cómo es posible que la mediana, que es más estable, tienda a variar más en las distintas muestras? Parece paradójico. Se agradecería cualquier idea al respecto.
2 votos
Sí, pero pruébalo muestreando desde nums <- rt(n = 10**6, 1.1). Esa distribución t1.1 dará un montón de valores extremos, no necesariamente equilibrados entre positivos y negativos (tan buena es la posibilidad de obtener otro valor extremo positivo como un valor extremo negativo para equilibrar), que provocará una gigantesca varianza en $\bar{x}$ . Esto es lo que protege la mediana. Es poco probable que la distribución normal dé valores especialmente extremos para estirar la $\bar{x}$ distribución más amplia que la mediana.
11 votos
La afirmación del autor no es generalmente cierta. (Hemos recibido aquí muchas preguntas relacionadas con errores en los libros de este autor, así que esto no es una sorpresa). Los contraejemplos estándar se encuentran entre los "distribuciones estables" En este caso, la media es cualquier cosa menos "estable" (en cualquier sentido razonable del término) y la mediana es mucho más estable.
1 votos
"... la media tiende a ser estable en diferentes muestras" es una afirmación sin sentido. La "estabilidad" no está bien definida. La media (muestral) es, en efecto, bastante estable en una sola muestra porque es una cantidad no aleatoria. Si los datos son "inestables" (¿muy variables?), la media también es "inestable".
1 votos
Es probable que esta pregunta se responda con los análisis detallados que se ofrecen en stats.stackexchange.com/questions/7307 donde se plantea la misma pregunta de forma específica (donde el sentido de "estable" está bien definido).
2 votos
Pruebe a sustituir
rnorm
conrcauchy
.0 votos
"Depende" es una respuesta corta. Como otro ejemplo, considere una variable que es 0 o 1 con iguales probabilidades (y sorteos independientes). La mediana puede ser 0,5, pero dependiendo de las peculiaridades, a menudo será 0 o 1, incluso en muestras grandes. La media no se alejará mucho de 0,5 a menos que las muestras sean muy pequeñas.