18 votos

Valor máximo del coeficiente de variación para el conjunto limitado de datos

En el debate que siguió a una reciente pregunta acerca de si la desviación estándar puede exceder la media, una pregunta que se planteó brevemente, pero nunca respondió. Así que yo estoy pidiendo aquí.

Considerar un conjunto de $n$ números no negativos $x_i$ donde$0 \leq x_i \leq c$$1 \leq i \leq n$. No es se requiere que el $x_i$ ser distinto, esto es, el conjunto podría ser un conjunto múltiple. La media y la varianza del conjunto se define como $$\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i, ~~ \sigma_x^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 = \left(\frac{1}{n}\sum_{i=1}^n x_i^2\right) - \bar{x}^2$$ y la desviación estándar es $\sigma_x$. Tenga en cuenta que el conjunto de de los números es no una muestra de una población, y estamos no se estima una población media o la varianza de la población. La pregunta entonces es:

¿Cuál es el máximo valor de $\dfrac{\sigma_x}{\bar{x}}$, el coeficiente de variación, sobre todas las opciones de la $x_i$'s en el intervalo de $[0,c]$?

El valor máximo que puedo encontrar para $\frac{\sigma_x}{\bar{x}}$ $\sqrt{n-1}$ que se logra cuando $n-1$ de la $x_i$ valor $0$ y el restante (outlier) $x_i$ tiene valor $c$, dando $$\bar{x} = \frac{c}{n},~~ \frac{1}{n}\sum x_i^2 = \frac{c^2}{n} \Rightarrow \sigma_x = \sqrt{\frac{c^2}{n} - \frac{c^2}{n^2}} = \frac{c}{n}\sqrt{n-1}.$$ Pero esto no depende de la $c$ a todos, y me estoy preguntando si es mayor valores, posiblemente dependiente de la $n$$c$, se puede lograr.

Alguna idea? Estoy seguro de que esta cuestión ha sido estudiada en la literatura estadística, y por lo tanto las referencias, si no que los resultados reales, sería mucho apreciado.

16voto

jldugger Puntos 7490

La geometría proporciona una visión clásica y las desigualdades permitirse el lujo de fácil acceso a rigor.

Solución geométrica

Sabemos, a partir de la geometría de los mínimos cuadrados, que $\mathbf{\bar{x}} = (\bar{x}, \bar{x}, \ldots, \bar{x})$ es la proyección ortogonal del vector de datos de $\mathbf{x}=(x_1, x_2, \ldots, x_n)$ en el lineal subespacio generado por el vector constante $(1,1,\ldots,1)$ y $\sigma_x$ es directamente proporcional a la (Euclidiana) de la distancia entre el $\mathbf{x}$ $\mathbf{\bar{x}}.$ La no negatividad de las restricciones son lineales y la distancia es una función convexa, de dónde los extremos de la distancia debe ser alcanzado en los bordes del cono determinado por las restricciones. Este cono es el positivo orthant en $\mathbb{R}^n$ y sus bordes son los ejes de coordenadas, de donde se sigue inmediatamente que todos, pero uno de los $x_i$ debe ser cero en el máximo de las distancias. Para un conjunto de datos, de forma directa (simple) cálculo de la muestra $\sigma_x/\bar{x}=\sqrt{n}.$

La solución de la explotación clásica de las desigualdades

$\sigma_x/\bar{x}$ está optimizado simultáneamente con cualquier monótona de la transformación de los mismos. A la luz de esto, vamos a maximizar

$$\frac{x_1^2+x_2^2+\ldots+x_n^2}{(x_1+x_2+\ldots+x_n)^2} = \frac{1}{n}\left(\frac{n-1}{n}\left(\frac{\sigma_x}{\bar{x}}\right)^2+1\right) = f\left(\frac{\sigma_x}{\bar{x}}\right).$$

(La fórmula para $f$ puede parecer misterioso hasta que te das cuenta de que sólo registra los pasos que uno puede tomar en forma algebraica de la manipulación de $\sigma_x/\bar{x}$ a ponerlo en un aspecto sencillo formulario, que es el lado izquierdo.)

Una manera fácil comienza con el Titular de la Desigualdad,

$$x_1^2+x_2^2+\ldots+x_n^2 \le \left(x_1+x_2+\ldots+x_n\right)\max(\{x_i\}).$$

(Este no necesita de ninguna prueba en este simple contexto: simplemente reemplazar un factor de cada plazo $x_i^2 = x_i \times x_i$ de la máxima componente de $\max(\{x_i\})$: obviamente, la suma de los cuadrados no va a disminuir. Factorizando el término común de $\max(\{x_i\})$ rendimientos el lado derecho de la desigualdad.)

Debido a que el $x_i$ no son todos los $0$ (que dejaría $\sigma_x/\bar{x}$ indefinido), la división por el cuadrado de su suma es válido y le da el equivalente de la desigualdad

$$\frac{x_1^2+x_2^2+\ldots+x_n^2}{(x_1+x_2+\ldots+x_n)^2} \le \frac{\max(\{x_i\})}{x_1+x_2+\ldots+x_n}.$$

Debido a que el denominador no puede ser menor que el numerador (que en sí es sólo uno de los términos en el denominador), el lado derecho está dominado por el valor de $1$, que sólo se logra cuando todos pero uno de los $x_i$ igual $0$. De dónde

$$\frac{\sigma_x}{\bar{x}} \le f^{-1}\left(1\right) = \sqrt{\left(1 \times (n - 1)\right)\frac{n}{n-1}}=\sqrt{n}.$$

Enfoque alternativo

Debido a que el $x_i$ son no negativos y no se puede sumar a $0$, los valores de $p(i) = x_i/(x_1+x_2+\ldots+x_n)$ determinar una distribución de probabilidad $F$$\{1,2,\ldots,n\}$. Escrito $s$ para la suma de los $x_i$, reconocemos

$$\eqalign{ \frac{x_1^2+x_2^2+\ldots+x_n^2}{(x_1+x_2+\ldots+x_n)^2} &= \frac{x_1^2+x_2^2+\ldots+x_n^2}{s^2} \\ & = \left(\frac{x_1}{s}\right)\left(\frac{x_1}{s}\right)+\left(\frac{x_2}{s}\right)\left(\frac{x_2}{s}\right) + \ldots + \left(\frac{x_n}{s}\right)\left(\frac{x_n}{s}\right)\\ &= p_1 p_1 + p_2 p_2 + \ldots + p_n p_n\\ &= \mathbb{E}_F[p]. }$$

El axioma el hecho de que no hay probabilidad puede exceder $1$ implica que esta expectativa no puede exceder $1$,, pero es fácil de hacer, es igual a $1$ mediante la configuración de todos, pero uno de los $p_i$ igual a $0$ y por lo tanto una de las $x_i$ es distinto de cero. Calcular el coeficiente de variación como en la última línea de la solución geométrica de arriba.

10voto

Nick Cox Puntos 22819

Algunas referencias, como pequeñas velas en los pasteles de los demás:

Katsnelson y Kotz (1957) demostró que tan largo como todos los $x_i \ge 0$, entonces el coeficiente de la variación no puede exceder $\sqrt{n − 1}$. Este resultado fue mencionado anteriormente por Longley (1952). Cramér (1946, pág.357) resultó ser un menor resultado nítido, y Kirby (1974) demostró un menor resultado general.

Cramér, H. 1946. Métodos matemáticos de la estadística. Princeton, NJ: Princeton University Press.

Katsnelson, J., y S. Kotz. 1957. En la parte superior de los límites de algunas de las medidas de variabilidad. Archiv für Meteorologie, Geophysik und Bioklimatologie, Serie B, de 8: 103-107.

Kirby, W. 1974. Algebraicas acotamiento de la muestra estadística. De Investigación En Recursos Hídricos 10: 220-222.

Longley, R. W., 1952. Las medidas de la variabilidad de la precipitación. Monthly Weather Revisión de los 80: 111-117.

Me encontré con estos papeles de trabajo en

Cox, N. J. 2010. Los límites de la muestra de la asimetría y la curtosis. Stata Journal 10: 482-495.

que se describe en líneas generales, similar límites en el momento basado en la asimetría y la curtosis.

8voto

Alan Puntos 7273

Con dos números de $x_i \ge x_j$, algunos $\delta \gt 0$ y cualquier $\mu$:

$$(x_i+\delta - \mu)^2 + (x_j - \delta - \mu)^2 - (x_i - \mu)^2 - (x_j - \mu)^2 = 2\delta(x_i - x_j +\delta) \gt 0.$$

Aplicando esto a $n$ no negativo de puntos de datos, esto significa que a menos que todos, pero uno de los $n$ números son cero y por lo tanto no puede ser reducido aún más, es posible aumentar la varianza y la desviación estándar mediante la ampliación de la brecha entre cualquier par de puntos de datos manteniendo la misma media, aumentando así el coeficiente de variación. Por lo que el máximo coeficiente de variación para el conjunto de datos es como lo sugieren: $\sqrt{n-1}$.

$c$ no debe afectar el resultado como $\frac{\sigma_x}{\bar{x}}$ no cambia si todos los valores se multiplican por cualquier constante positiva $k$ (como dije en mi comentario).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X