26 votos

¿Por qué la media tiende a ser más estable en diferentes muestras que la mediana?

Sección 1.7.2 de Descubrir la estadística con R de Andy Field, et al., al enumerar las virtudes de la media frente a la mediana, afirma:

... la media tiende a ser estable en diferentes muestras.

Esto después de explicar las muchas virtudes de la mediana, por ejemplo

... La mediana no se ve relativamente afectada por las puntuaciones extremas en los extremos de la distribución ...

Dado que la mediana se ve relativamente poco afectada por las puntuaciones extremas, habría pensado que sería más estable en todas las muestras. Por eso me desconcierta la afirmación de los autores. Para confirmarlo, realicé una simulación: generé 1 millón de números aleatorios y tomé muestras de 100 números 1.000 veces y calculé la media y la mediana de cada muestra y, a continuación, calculé la sd de esas medias y medianas de las muestras.

nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)

Como puede ver, las medias están más distribuidas que las medianas.

enter image description here

En la imagen adjunta el histograma rojo es para las medianas - como se puede ver es menos alto y tiene una cola más gorda que también confirma la afirmación del autor.

Sin embargo, ¡esto me deja boquiabierto! ¿Cómo es posible que la mediana, que es más estable, tienda a variar más en las distintas muestras? Parece paradójico. Se agradecería cualquier idea al respecto.

2 votos

Sí, pero pruébalo muestreando desde nums <- rt(n = 10**6, 1.1). Esa distribución t1.1 dará un montón de valores extremos, no necesariamente equilibrados entre positivos y negativos (tan buena es la posibilidad de obtener otro valor extremo positivo como un valor extremo negativo para equilibrar), que provocará una gigantesca varianza en $\bar{x}$ . Esto es lo que protege la mediana. Es poco probable que la distribución normal dé valores especialmente extremos para estirar la $\bar{x}$ distribución más amplia que la mediana.

11 votos

La afirmación del autor no es generalmente cierta. (Hemos recibido aquí muchas preguntas relacionadas con errores en los libros de este autor, así que esto no es una sorpresa). Los contraejemplos estándar se encuentran entre los "distribuciones estables" En este caso, la media es cualquier cosa menos "estable" (en cualquier sentido razonable del término) y la mediana es mucho más estable.

1 votos

"... la media tiende a ser estable en diferentes muestras" es una afirmación sin sentido. La "estabilidad" no está bien definida. La media (muestral) es, en efecto, bastante estable en una sola muestra porque es una cantidad no aleatoria. Si los datos son "inestables" (¿muy variables?), la media también es "inestable".

28voto

Loren Pechtel Puntos 2212

Como han dicho @whuber y otros, la afirmación no es cierta en general. Y si estás dispuesto a ser más intuitivo - no puedo seguir el ritmo de los profundos frikis de las matemáticas por aquí - podrías mirar otras formas en que la media y la mediana son estables o no. Para estos ejemplos, asumir un número impar de puntos para que pueda mantener mis descripciones coherente y simple.

  1. Imagina que tienes una extensión de puntos en una recta numérica. Ahora imagina que tomas todos los puntos por encima de la media y los mueves hasta 10 veces sus valores. La mediana no cambia, la media se ha movido significativamente. Entonces la mediana parece más estable.

  2. Ahora imagina que estos puntos están bastante repartidos. Mueve el punto central hacia arriba y hacia abajo. Un movimiento de una unidad cambia la mediana en uno, pero apenas mueve la media. La mediana parece ahora menos estable y más sensible a los pequeños movimientos de un solo punto.

  3. Ahora imagina que tomas el punto más alto y lo mueves suavemente desde el punto más alto hasta el más bajo. La media también se moverá suavemente. Pero la mediana no se moverá de forma continua: no se moverá en absoluto hasta que tu punto más alto sea más bajo que la mediana anterior, entonces empieza a seguir el punto hasta que se sitúa por debajo del siguiente punto, entonces la mediana se pega a ese punto y de nuevo no se mueve mientras sigues moviendo tu punto hacia abajo. [Editado por comentario]

Así que las diferentes transformaciones de sus puntos hacen que la media o la mediana parezcan menos suaves o estables en algún sentido. Los expertos en matemáticas te han mostrado distribuciones de las que puedes tomar muestras, que se ajustan más a tu experimento, pero espero que esta intuición también te ayude.

1 votos

En cuanto al punto 3: ¿La mediana no se movería también suavemente? Digamos que el conjunto inicial de puntos es [1, 3, 5, 7, 9] . Inicialmente la mediana es 5 . Esta será la mediana hasta el quinto punto (inicialmente 9 ) cae por debajo de 5 en cuyo momento la mediana seguirá suavemente el quinto punto a medida que vaya disminuyendo, hasta llegar a 3 en cuyo momento la mediana se mantendrá en 3 . Por lo tanto, aunque el punto que define la mediana está "saltando" (del tercer punto, al quinto punto, al segundo punto), el verdadero valor de la mediana no tiene salto/discontinuidad.

0 votos

@ScottM Parece que tienes razón. No sé por qué pensé que saltaría. Volveré a redactar cuando tenga la oportunidad.

20voto

Aaron Puntos 36

Suponga que tiene $n$ puntos de datos de algunos subyacentes continuo con media $\mu$ y la varianza $\sigma^2 < \infty$ . Sea $f$ sea la función de densidad de esta distribución y que $m$ sea su mediana. Para simplificar aún más este resultado, dejemos que $\tilde{f}$ sea el correspondiente estandarizado función de densidad, dada por $\tilde{f}(z) = \sigma \cdot f(\mu+\sigma z)$ para todos $z \in \mathbb{R}$ . La varianza asintótica de la media y la mediana muestrales vienen dadas respectivamente por:

$$\mathbb{V}(\bar{X}_n) = \frac{\sigma^2}{n} \quad \quad \quad \quad \quad \mathbb{V}(\tilde{X}_n) \rightarrow \frac{\sigma^2}{n} \cdot \frac{1}{4} \cdot \tilde{f}\Big( \frac{m-\mu}{\sigma} \Big)^{-2}.$$

Por lo tanto, tenemos:

$$\frac{\mathbb{V}(\bar{X}_n)}{\mathbb{V}(\tilde{X}_n)} \rightarrow 4 \cdot \tilde{f}\Big( \frac{m-\mu}{\sigma} \Big)^2.$$

Como puede ver, el tamaño relativo de la varianza de la media y la mediana de la muestra está determinado (asintóticamente) por el valor de la densidad normalizada en la mediana verdadera. Así, para grandes $n$ tenemos la correspondencia asintótica:

$$\mathbb{V}(\bar{X}_n) < \mathbb{V}(\tilde{X}_n) \quad \quad \iff \quad \quad f_* \equiv \tilde{f} \Big( \frac{m-\mu}{\sigma} \Big) < \frac{1}{2}.$$

Es decir, para grandes $n$ y hablando asintóticamente, la varianza de la media muestral será menor que la varianza de la mediana muestral si y sólo si la densidad normalizada en el valor de la mediana normalizada es menor que la mitad. Los datos que has utilizado en tu ejemplo de simulación se han generado a partir de una distribución normal, por lo que tienes $f_* = 1 / \sqrt{2 \pi} = 0.3989423 < 1/2$ . Por lo tanto, no es sorprendente que haya encontrado una mayor varianza para la mediana de la muestra en ese ejemplo.

0 votos

¡Impresionante! Gracias.

7voto

r4w8173 Puntos 198

La mediana es muy robusta frente a los valores atípicos, pero muy susceptible al ruido. Si se introduce una pequeña cantidad de ruido en cada punto, éste entrará en la mediana sin amortiguar, siempre que el ruido sea lo suficientemente pequeño como para no cambiar el orden relativo de los puntos. En el caso de la media es al revés. El ruido se promedia, pero un solo valor atípico puede cambiar la media de forma arbitraria.

                                        mean  median   
original   [1.0, 2.0, 3.0, 4.0, 5.0]       3       3
noise      [1.1, 1.9, 3.1, 4.1, 4.9]    3.02     3.1
outlier    [100, 2.0, 3.0, 4.0, 5.0]    22.8       4

Su prueba mide sobre todo la robustez al ruido, pero puede crear fácilmente una muestra en la que la mediana tenga un mejor rendimiento. Si quieres un estimador que sea robusto tanto a los valores atípicos como al ruido, simplemente tira el tercio superior e inferior y promedia el resto.

2 votos

¿Hay algún nombre más específico para este algoritmo que "el 33%"? media recortada " ?

5voto

manku Puntos 111

Comentario: Sólo para hacerme eco de tu simulación, utilizando una distribución para la que las DE de las medias y las medianas tienen el resultado contrario:

Específicamente, nums provienen ahora de una distribución de Laplace (también llamada "doble exponencial"), que puede simularse como la diferencia de dos distribuciones exponenciales con la misma tasa (aquí la tasa 1 por defecto). [Quizás vea Wikipedia sobre las distribuciones de Laplace].

set.seed(2019)
nums = rexp(10^6) - rexp(10^6)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10^3) { b = sample(x=nums, 10^2); 
  medians[i]= median(b); means[i]=mean(b) }
sd(means)
[1] 0.1442126
sd(medians)
[1] 0.1095946   # <-- smaller

hist(nums, prob=T, br=70, ylim=c(0,.5),  col="skyblue2")
 curve(.5*exp(-abs(x)), add=T, col="red")

enter image description here

Nota: Otra posibilidad fácil, mencionada explícitamente en el enlace de @whuber, es Cauchy, que puede ser simulada como la distribución t de Student con un grado de libertad, rt(10^6, 1) . Sin embargo, sus colas son tan pesadas que hacer un buen histograma es problemático.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X