25 votos

¿Qué se puede concluir sobre los datos cuando la media aritmética está muy cerca de la media geométrica?

¿Hay algo significativo en que la media geométrica y la media aritmética estén muy próximas entre sí, por ejemplo, un 0,1%? ¿Qué conjeturas se pueden hacer sobre ese conjunto de datos?

He estado trabajando en el análisis de un conjunto de datos, y me doy cuenta de que, irónicamente, los valores están muy, muy cerca. No son exactos, pero sí cercanos. Además, una rápida comprobación de la desigualdad entre la media aritmética y la media geométrica, así como una revisión de la adquisición de datos, revelan que no hay nada sospechoso en la integridad de mi conjunto de datos en términos de cómo llegué a los valores.

6 votos

Pequeña nota: Primero compruebe que sus datos son todos positivos; un número par de valores negativos podría dejarle con un producto positivo, y algunos paquetes pueden no señalar el problema potencial (la desigualdad AM-GM se basa en que los valores sean todos positivos). Véase por ejemplo (en R): x=c(-5,-5,1,2,3,10); prod(x)^(1/length(x)) $\:\quad$ [1] 3.383363 (mientras que la media aritmética es 1)

1 votos

Para profundizar en el punto de @Glen_b, un conjunto de datos $\{-x,0,x\}$ siempre tiene la misma media aritmética y geométrica, es decir, cero. Sin embargo, podemos separar los tres valores tanto como queramos.

0 votos

Tanto la media aritmética como la geométrica tienen la misma fórmula generalizada con $p=1$ dando la primera y $p \rightarrow 0$ dando lo último. Entonces queda claro de forma intuitiva que ambos se acercan cada vez más cuando los valores de los datos $x$ son cada vez más iguales, acercándose a la constante.

29voto

Josh Pearce Puntos 2288

La media aritmética se relaciona con la media geométrica a través de la desigualdad Aritmética-Media-Geométrica-Media (AMGM) que establece que:

$$\frac{x_1+x_2+\cdots+x_n} n \geq \sqrt[n]{x_1 x_2\cdots x_n},$$

donde la igualdad se logra si $x_1=x_2=\cdots=x_n$ . Así que probablemente sus puntos de datos están muy cerca unos de otros.

4 votos

Así es. Normalmente, cuanto menor es la varianza de los valores, más se acercan las dos medias.

16 votos

La varianza tendría que ser pequeña EN COMPARACIÓN con el tamaño de las observaciones. Por lo tanto, es el coeficiente de variación, $\sigma/\mu$ que tendría que ser pequeño. $\qquad$

1 votos

¿Significa algo la AMGM? Si es así, estaría bien que se explicara.

15voto

Martin Robins Puntos 1893

Desarrollando la respuesta de @Alex R, una forma de ver la desigualdad de AMGM es como un efecto de desigualdad de Jensen. Por La desigualdad de Jensen : $$ \log\left( \frac{1}{n} \sum_i x_i \right) \geq \frac{1}{n} \sum_i \log x_i $$ Luego toma el exponencial de ambos lados: $$ \frac{1}{n} \sum_i x_i \geq \exp\left( \frac{1}{n} \sum_i \log x_i \right) $$

El lado derecho es la media geométrica ya que $ \left(x_1 \cdot x_2 \cdot \ldots \cdot x_n \right)^{1/n} = \exp\left(\frac{1}{n} \sum_i \log x_i \right) $

¿Cuándo se mantiene la desigualdad de AMGM con casi igualdad? Cuando el efecto de la desigualdad de Jensen es pequeño. Lo que impulsa el efecto de la desigualdad de Jensen aquí es la concavidad, la curvatura del logaritmo. Si tus datos están repartidos en una zona donde el logaritmo tiene curvatura, el efecto será grande. Si tus datos se extienden a través de una región donde el logaritmo es básicamente afín, entonces el efecto será pequeño.

Por ejemplo, si los datos tienen poca variación, están agrupados en una vecindad suficientemente pequeña, entonces el logaritmo se verá como una función afín en esa región (un tema de cálculo es que si se acerca lo suficiente a una función suave y continua, ésta se verá como una línea). Para datos suficientemente cercanos, la media aritmética de los datos se acercará a la media geométrica.

12voto

jldugger Puntos 7490

Vamos a investigar la gama de $x_1\le x_2 \le \cdots \le x_n$ dado que su media aritmética (AM) es un pequeño múltiplo $1+\delta$ de su media geométrica (MG) (con $\delta \ge 0$ ). En la pregunta, $\delta\approx 0.001$ pero no sabemos $n$ .

Dado que la relación de estas medias no cambia cuando se modifican las unidades de medida, elija una unidad para la que el GM sea $1$ . Así, buscamos maximizar $x_n$ con la condición de que $x_1+x_2+\cdots+x_n = n(1+\delta)$ y $x_1\cdot x_2\cdots x_n = 1$ .

Esto se hará haciendo $x_1=x_2=\cdots=x_{n-1}=x$ , digamos, y $x_n=z \ge x$ . Así,

$$n(1+\delta) = x_1 + \cdots + x_n = (n-1)x + z$$

y

$$1 = x_1\cdot x_2 \cdots x_n = x^{n-1}z.$$

La solución $x$ es una raíz entre $0$ y $1$ de

$$(1-n)x^n + n(1+\delta)x^{n-1} - 1.$$

Se encuentra fácilmente de forma iterativa. Aquí están los gráficos del óptimo $x$ y $z$ en función de $\delta$ para $n=6, 20, 50, 150$ de izquierda a derecha:

Figure

Tan pronto como $n$ alcanza cualquier tamaño apreciable, incluso una pequeña proporción de $1.001$ es consistente con un gran periférico $x_n$ (las curvas rojas superiores) y un grupo de $x_i$ (las curvas azules inferiores).

En el otro extremo, supongamos que $n=2k$ es par (para simplificar). El alcance mínimo se alcanza cuando la mitad de la $x_i$ igual a un valor $x \le 1$ y la otra mitad es igual a otro valor $z \ge 1$ . Ahora la solución (que se comprueba fácilmente) es

$$x^k = 1+\delta \pm \sqrt{\delta^2 + 2\delta}.$$

Para los pequeños $\delta$ podemos ignorar el $\delta^2$ como una aproximación y también aproximar el $k^\text{th}$ raíz de primer orden, dando

$$x \approx 1 + \frac{\delta-\sqrt{2\delta}}{k};\ z \approx 1 + \frac{\delta+\sqrt{2\delta}}{k}.$$

La gama es aproximadamente $\sqrt{32\delta}/n$ .

De este modo, hemos obtenido límites superiores e inferiores en el rango posible de los datos. Hemos aprendido que dependen en gran medida de la cantidad de datos $n$ . El límite superior muestra que el rango puede ser apreciable incluso para pequeñas $\delta$ Así, podemos saber más sobre la proximidad de los puntos de datos y establecer un límite inferior para su alcance.

Análisis similares, igual de fáciles de realizar, pueden informar cuantitativamente --de lo estrechamente agrupados que están los $x_i$ puede ser en términos de cualquier otra medida de dispersión, como su varianza o coeficiente de variación.

0 votos

A la derecha de su gráfico derecho parece tener $n=150, \delta=0.002, x\approx 0.9954, z \approx 1.983, k=75$ . No veo cómo estos valores se acercan a las aproximaciones de sus fórmulas declaradas que parecen dar $x \approx 0.99918, z\approx 1.00087$ . Tal vez he entendido mal

0 votos

@Henry No sé cómo has llegado a esos números. Cuando $n=150$ los requisitos son que $x^{149} z=1$ y $149x + z=150(1.002)=150.3$ . Ninguna de las dos cosas se acerca a la verdad para los valores que usted proporciona. Cuando introduces $x=0.995416$ y $z=1.98308$ se obtienen los valores correctos.

0 votos

Intenté lo que me parece su $z \approx 1 + \dfrac{\delta+\sqrt{2\delta}}{k} = 1+\dfrac{0.002+\sqrt{2\times 0.002} }{75} \approx 1.00087$ y de forma similar para $x$ . Pero ahora veo que esto es responder a una pregunta diferente

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X