4 votos

Efecto de agregar y eliminar datos sobre la varianza

Considerar un conjunto de distintos números. Después de la eliminación tanto de los max y min de la serie y la adición de la mediana para el conjunto, el conjunto de los números obviamente se convierte en menos dispersa y la varianza debe disminuir. ¿Cómo podemos demostrar este resultado formalmente?

He intentado trabajar con la definición y la expansión parece un lío. No parece un enfoque viable en absoluto.


Muchas gracias por @whuber♦'s explicación detallada. Pero yo en realidad el objetivo de incluir la mediana de una sola vez, por lo que estamos pasando de un conjunto de $n$ números de un conjunto de $n-1$ números. He intentado seguir su argumento y considerar la $X=\{{{x}_{2}},\cdots ,{{x}_{n-1}}\}$, $Y=\{{{x}_{1}},{{x}_{50}}\}$ y $Y'=\{{{x}_{M}}\}$ donde ${{\mu }_{1}}(X,Y)$ es asumido a 0. Luego he obtenido $\begin{align} & {{\Delta }_{X}}(Y,Y')=\operatorname{Var}(X,Y)-\text{Var}(X,Y') \\ & =[{{\mu }_{2}}(X,Y)-{{\mu }_{1}}{{(X,Y)}^{2}}]-[{{\mu }_{2}}(X,Y')-{{\mu }_{1}}{{(X,Y')}^{2}}] \\ & =\left[ \frac{\sum\limits_{i=1}^{n}{x_{i}^{2}}}{n}-0 \right]-\left[ \frac{x_{M}^{2}+\sum\limits_{i=2}^{n-1}{x_{i}^{2}}}{n-1}-{{\left( \frac{{{x}_{M}}+\sum\limits_{i=2}^{n-1}{{{x}_{i}}}}{n-1} \right)}^{2}} \right] \\ & =\frac{\sum\limits_{i=1}^{n}{x_{i}^{2}}}{n}-\frac{x_{M}^{2}+\sum\limits_{i=2}^{n-1}{x_{i}^{2}}}{n-1}+\frac{{{({{x}_{M}}-{{x}_{1}}-{{x}_{n}})}^{2}}}{{{(n-1)}^{2}}} \\ & =\frac{(n-1)\sum\limits_{i=1}^{n}{x_{i}^{2}}-nx_{M}^{2}-n\sum\limits_{i=2}^{n-1}{x_{i}^{2}}}{n(n-1)}+\frac{{{({{x}_{M}}-{{x}_{1}}-{{x}_{n}})}^{2}}}{{{(n-1)}^{2}}} \\ & =\frac{(n-1)(x_{1}^{2}+x_{n}^{2})-nx_{M}^{2}-\sum\limits_{i=2}^{n-1}{x_{i}^{2}}}{n(n-1)}+\frac{{{({{x}_{M}}-{{x}_{1}}-{{x}_{n}})}^{2}}}{{{(n-1)}^{2}}} \end{align}$

No es obvio para mí cómo este sucio expresión puede ser más simplificado, con el fin de establecer su no-negatividad. ¿Te importaría señalando hacia fuera? Gracias.

3voto

jldugger Puntos 7490

Desglosar el problema en conceptualmente distintas partes hace solubles. Este es un enfoque general para el trabajo con variaciones.


Formulación del problema

Podemos ver los datos como una colección de números (que no tiene por qué ser distinta) $x_1, x_2, \ldots, x_n$ donde $n\ge 2,$ $x_1$ es el más pequeño, y $x_n$ es el más grande. Partición en dos grupos: $X=(x_2, x_3, \ldots, x_{n-1})$ $n-2$ números y $Y=(x_1,x_n)$ $2$ números. El problema le pregunta qué sucede cuando $Y$ es reemplazado por $Y^\prime=(x_M)$ donde $x_M$ es la media de todas las $n$ valores.


Simplificando el problema con preliminar de las manipulaciones y las desigualdades

Debido a que la varianza no cambia cuando todos los valores se desplazan, podemos suponer que la gama media de todos los valores es$0$: $x_1 = -x_n.$

Elija una unidad de medida en que $x_n=1.$ Esto siempre es posible, a menos $x_1=x_n=0,$, en cuyo caso es obvio que la inicial y la final varianzas son ambos cero.

Tenga en cuenta que desde ahora todos los valores se encuentran entre el$-1$$1$, la mediana de la $x_M$ y la media de $\bar x$ $X$ también se encuentran entre las $-1$ $1.$ Que es,

$$-1=x_1 \le \bar x \le x_n = 1.\tag{*}$$

También, la varianza $\sigma^2$ $X$ no puede exceder $1.$ Deje $\delta=x_M-\bar x$ ser la diferencia entre la mediana y la media. Es un ejercicio simple para mostrar que

$$\delta^2 \le \sigma^2 \le 1.\tag{**}$$

Familiares De Las Definiciones

Momentos

La (cruda) momento de grado $k$ de una colección de números es la media aritmética de sus $k^\text{th}$ poderes. Para mayor comodidad, al $Z$ denota una colección de números de $(z_1, z_2, \ldots, z_m),$ vamos a escribir

$$\mu_k(Z) = \frac{1}{m}\sum_{i=1}^m z_i^k$$

por su $k^\text{th}$ momento.

El comportamiento de los momentos virtud de la partición

Cuando una colección de números de $Z$ se reparte en $Z = (X,Y)$ $X=(x_1,\ldots,x_n)$ $Y=(y_1,\ldots,y_m),$ la anterior fórmula se rompe en dos sumas, produciendo

$$\mu_k(Z) = \frac{1}{n+m}\left(n\,\mu_k(X) + m\,\mu_k(Y)\right).$$

Varianza

Una fórmula para la varianza de un conjunto de números es su segundo momento, menos el cuadrado de su primer momento:

$$\operatorname{Var}(Z) = \mu_2(Z) - \mu_1(Z)^2.$$


Solución

Paso 1: La fórmula

Tenemos que encontrar una fórmula simple para $\Delta_X(Y,Y^\prime)=\operatorname{Var}(X,Y) - \operatorname{Var}(X,Y^\prime)$ y, a continuación, analizar: el problema es mostrar este nunca es negativo.

Las anteriores fórmulas algebraicamente simplificar, sin ningún tipo de problemas, a

$$\eqalign{ n^2(n-1)^2\Delta_X(Y,Y^\prime) &= n 2 + n(n-2)(2-\delta^2))\\ &+ (n-1)(n-2)\left(2(n-1)(\bar x)^2 - n\sigma^2\right). }$$

Paso 2: Análisis de la fórmula

Aplicar las desigualdades en $(*)$ $(**)$ mediante la sustitución de $\delta^2=1,$ $\sigma^2=1,$ y $\bar x = 0$ obtener

$$\eqalign{&n^2(n-1)^2\Delta_X(Y,Y^\prime\\& \ge n(2 + n(n-2)(2-1^2)) + (n-1)(n-2)(2(n-1)(0)^2 - n(1)) \\ &=n^2 \gt 0, }$$

QED.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X