23 votos

¿Por qué la media geométrica es menos sensible a los valores atípicos que la media aritmética?

Es bien sabido que la media geométrica de un conjunto de números positivos es menos sensible a los valores atípicos que la media aritmética. Es fácil verlo con el ejemplo, pero ¿hay alguna razón teórica más profunda para ello?

¿Cómo podría "demostrar" que esto es cierto? ¿Tendría sentido comparar las varianzas de la GM y la AM de una secuencia de variables aleatorias?

5 votos

"A diferencia del AM, el GM se mide en escala logarítmica y por esa razón se cree generalmente que el GM no es tan sensible a las observaciones extremas o a los valores atípicos", La mediana geométrica y su aplicación en la identificación de múltiples valores atípicos .

1 votos

Este motiva $\sigma_{\ln X}\approx\frac{\sigma_X}{X}$ .

72voto

heropup Puntos 29437

La media geométrica es la exponencial de la media aritmética de una muestra transformada en logaritmo. En concreto,

$$\log\left( \biggl(\prod_{i=1}^n x_i\biggr)^{\!1/n}\right) = \frac{1}{n} \sum_{i=1}^n \log x_i,$$ para $x_1, \ldots, x_n > 0$ .

Así que esto debería proporcionar alguna intuición de por qué la media geométrica es insensible a los valores atípicos de la derecha, porque el logaritmo es una función que aumenta muy lentamente para $x > 1$ .

Pero ¿qué pasa cuando $0 < x < 1$ ? ¿La pendiente del logaritmo en este intervalo no sugiere que la media geométrica es sensible a valores positivos muy pequeños, es decir, a los valores atípicos de la izquierda? En efecto, esto es cierto.

Si su muestra es $(0.001, 5, 10, 15),$ entonces su media geométrica es $0.930605$ y su media aritmética es $7.50025$ . Pero si reemplaza $0.001$ con $0.000001$ esto apenas cambia la media aritmética, pero su media geométrica se convierte en $0.165488$ . Por tanto, la idea de que la media geométrica es insensible a los valores atípicos no es del todo precisa.

2 votos

+1 Muy buena explicación. Pero si el GM es el exponencial de algo, ¿no debería sugerir intuitivamente que debería ser sensible a los valores atípicos de la derecha, ya que los exponenciales son muy sensibles a los errores de la derecha?

5 votos

@Ovi Considera un simple ejemplo numérico. $$\exp((\log 10 + \log 1000)/2) = 100,$$ y $$\exp((\log 10 + \log 2000)/2) = 141,$$ pero la media aritmética es casi el doble. La razón es que el logaritmo de los valores atípicos de la derecha tiene lugar antes del promedio, lo que aplana su contribución a la media. La exponenciación del resultado final sólo devuelve los valores a la escala original. Por eso digo que "proporciona alguna intuición". No es una prueba formal, sino una invitación a desarrollar una comprensión más profunda.

0 votos

Ah, lo entiendo mejor, ¡gracias!

5voto

Bartek Puntos 131

Podemos incluso generalizar esta idea más allá: consideremos la definición de una media de potencia: $$\mu_p=\left(\frac{1}{n} \sum_{i=1}^n x_i^p \right)^\frac{1}{p}$$ Obtenemos la media aritmética cuando conectamos $p=1$ y la media geométrica cuando $p\rightarrow0$ . Resulta que cuanto menor sea el valor de $p$ menos impacto tienen los números grandes y más impacto tienen los números pequeños. Observe que, por ejemplo, aunque $x_1$ es muy cercano a cero la media aritmética siempre será al menos $\frac{x_2+x_3+\dots+x_n}{n}$ para que no baje a cero. No es el caso del otro extremo: la media aritmética puede ser arbitrariamente grande sólo por un único elemento. Lo mismo ocurre con todas las medias de potencia con $p>0$ . Para los negativos $p$ tenemos el comportamiento inverso. Consideremos una media armónica (que es un recíproco de una media aritmética de recíprocos y también una media de potencias con $p=-1$ ): $$\frac{n}{\sum_{i=1}^{n}\frac{1}{x_i}}$$ Vemos que incluso si $x_1$ es enorme, su recíproco seguirá siendo mayor que cero haciendo que la media total sea menor que: $$\frac{n}{\sum_{i=2}^{n}\frac{1}{x_i}}$$ Pero si sólo un elemento está muy cerca de cero, su recíproco será muy grande, lo que hará que todo el denominador sea grande y, por tanto, que la media armónica baje a cero. La media geométrica, al ser una media de potencias con $p=0$ exhibe estos dos comportamientos: puede hacerse grande o pequeño bajo la influencia de un solo elemento. Al principio parece malo, pero hay que recordar que será menos sensible a los valores atípicos grandes que cualquier media de potencia con $p>0$ (como por ejemplo la media aritmética) y menos sensible a los pequeños valores atípicos que cualquier media de potencia con $p<0$ (como la media armónica), por lo que en cierto sentido puede ser un buen compromiso.

También hay dos casos especiales/limítrofes importantes de la media de potencia, principalmente $p \rightarrow \infty$ y $p \rightarrow -\infty$ . En el primer caso, sólo obtenemos el máximo y en el segundo el mínimo de los datos. Obviamente, al tratarse de extremos, el máximo es completamente sensible a los grandes valores atípicos y completamente insensible a los pequeños, mientras que el mínimo presenta un comportamiento opuesto. Evidentemente, son un ejemplo horrible de "media", pero pueden servir de ayuda para entender el comportamiento general.

He generado una muestra aleatoria de millones de números distribuidos uniformemente y he calculado sus medias de potencia para diferentes valores de $p$ . Para $p=1$ observamos la media de alrededor de $\frac{1}{2}$ que es una verdadera media de la distribución. Para valores mayores de $p$ obtenemos mayores medios, como siempre, pero como pueden ver por $p<1$ observamos valores muy pequeños de la media. También para los más grandes $p$ la media parece no ser representativa. Así que hay que elegir en función de la distribución.

                                             Sensitivity to p

PRUEBA DE QUE LA MEDIA GEOMÉTRICA ES UNA MEDIA DE POTENCIA PARA $p=0$ :
Tenemos gracias a la regla de L'Hôpital: $$\log u_0=\lim_{p\rightarrow 0}\frac{\log(\sum_{i=1}^n x_i^p)-\log(n)}{p}=\lim_{p\rightarrow 0}\frac{\sum_{i=1}^n x_i^p \log x_i}{\sum_{i=1}^n x_i^p}=\frac{1}{n}\sum_{i=1}^n \log x_i$$ Así que, efectivamente: $$\mu_0=\exp\left(\frac{1}{n}\sum_{i=1}^n \log x_i \right)=\left(\prod_{i=1}^nx_i \right)^\frac{1}{n}$$

0 votos

No entiendo por qué la media de la potencia converge a la media geométrica como $p \to 0$ . ¿Podría aclararlo?

0 votos

He editado mi respuesta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X