26 votos

Intuición (geométrica u otra) de $Var(X) = E[X^2] - (E[X])^2$

Consideremos la identidad elemental de la varianza:

$$ \begin{eqnarray} Var(X) &=& E[(X - E[X])^2]\\ &=& ...\\ &=& E[X^2] - (E[X])^2 \end{eqnarray} $$

Se trata de una simple manipulación algebraica de la definición de un momento central en momentos no centrales.

Permite manipular cómodamente $Var(X)$ en otros contextos. También permite calcular la varianza mediante una sola pasada sobre los datos en lugar de dos pasadas, primero para calcular la media y luego para calcular la varianza.

Pero, ¿qué media ? Para mí no hay ninguna intuición geométrica inmediata que relacione la dispersión sobre la media con la dispersión sobre 0. Como $X$ es un conjunto en una sola dimensión, ¿cómo se considera la dispersión en torno a una media como la diferencia entre la dispersión en torno al origen y el cuadrado de la media?

¿Existe alguna buena interpretación de álgebra lineal o física u otra que permita comprender esta identidad?

25voto

Martin Robins Puntos 1893

Ampliando el punto de @whuber en los comentarios, si $Y$ y $Z$ son ortogonales, se tiene la Teorema de Pitágoras :

$$ \|Y\|^2 + \|Z\|^2 = \|Y + Z\|^2 $$

Observe que $\langle Y, Z \rangle \equiv \mathrm{E}[YZ]$ es válido producto interior y que $\|Y\| = \sqrt{\mathrm{E}[Y^2]}$ es el inducida por ese producto interior .

Sea $X$ sea una variable aleatoria. Sea $Y = \mathrm{E}[X]$ Deja que $Z = X - \mathrm{E}[X]$ . Si $Y$ y $Z$ son ortogonales:

\begin{align*} & \|Y\|^2 + \|Z\|^2 = \|Y + Z\|^2 \\ \Leftrightarrow \quad&\mathrm{E}[\mathrm{E}[X]^2] + \mathrm{E}[(X - \mathrm{E}[X])^2] = \mathrm{E}[X^2] \\ \Leftrightarrow \quad & \mathrm{E[X]}^2 + \mathrm{Var}[X]= \mathrm{E}[X^2] \end{align*}

Y es fácil demostrar que $Y = \mathrm{E}[X]$ y $Z = X - \mathrm{E}[X]$ son ortogonal bajo este producto interior:

$$\langle Y, Z \rangle = \mathrm{E}[\mathrm{E}[X]\left(X - \mathrm{E}[X] \right)] = \mathrm{E}[X]^2 - \mathrm{E}[X]^2 = 0$$

Uno de los catetos del triángulo es $X - \mathrm{E}[X]$ la otra pierna es $\mathrm{E}[X]$ y la hipotenusa es $X$ . Y se puede aplicar el teorema de Pitágoras porque una variable aleatoria degradada es ortogonal a su media.


Observación técnica:

$Y$ en este ejemplo debería ser el vector $Y = \mathrm{E}[X] \mathbf{1}$ es decir, el escalar $\mathrm{E}[X]$ por el vector constante $\mathbf{1}$ (por ejemplo $\mathbf{1} = [1, 1, 1, \ldots, 1]'$ en el caso de resultados discretos y finitos). $Y$ es el proyección vectorial de $X$ sobre el vector constante $\mathbf{1}$ .

Ejemplo sencillo

Consideremos el caso en que $X$ es un Variable aleatoria Bernoulli donde $p = .2$ . Tenemos:

$$ X = \begin{bmatrix} 1 \\ 0 \end{bmatrix} \quad P = \begin{bmatrix} .2 \\ .8 \end{bmatrix} \quad \mathrm{E}[X] = \sum_i P_iX_i = .2 $$

$$ Y = \mathrm{E}[X]\mathbf{1} = \begin{bmatrix} .2 \\ .2 \end{bmatrix} \quad Z = X - \mathrm{E}[X] = \begin{bmatrix} .8 \\ -.2 \end{bmatrix} $$

Y la foto lo es: enter image description here

La magnitud al cuadrado del vector rojo es la varianza de $X$ la magnitud al cuadrado del vector azul es $\mathrm{E}[X]^2$ y la magnitud al cuadrado del vector amarillo es $\mathrm{E}[X^2]$ .

RECUERDE aunque estas magnitudes, la ortogonalidad etc... no son respecto al producto punto habitual $\sum_i Y_iZ_i$ pero el producto interior $\sum_i P_iY_iZ_i$ . La magnitud del vector amarillo no es 1, es .2.

El vector rojo $Y = \mathrm{E}[X]$ y el vector azul $Z = X - \mathrm{E}[X]$ son perpendiculares bajo el producto interior $\sum_i P_i Y_i Z_i$ pero no son perpendicular en el sentido introductorio, de geometría de instituto. Recuerde que no estamos utilizando el producto punto habitual $\sum_i Y_i Z_i$ como producto interior.

10voto

Arne Puntos 928

Optaré por un enfoque puramente geométrico para un escenario muy específico. Consideremos una variable aleatoria de valor discreto $X$ tomar valores $\{x_1,x_2\}$ con probabilidades $(p_1,p_2)$ . Supondremos además que esta variable aleatoria puede representarse en $\mathbb{R}^2$ como vector, $\mathbf{X} = \left(x_1\sqrt{p_1},x_2\sqrt{p_2} \right)$ . enter image description here

Obsérvese que la longitud cuadrada de $\mathbf{X}$ es $x_1^2p_1+x_2^2p_2$ que es igual a $E[X^2]$ . Así, $\left\| \mathbf{X} \right\| = \sqrt{E[X^2]}$ .

Desde $p_1+p_2=1$ la punta del vector $\mathbf{X}$ en realidad traza una elipse. Esto es más fácil de ver si se reparametriza $p_1$ y $p_2$ como $\cos^2(\theta)$ y $\sin^2(\theta)$ . Por lo tanto, tenemos $\sqrt{p_1} =\cos(\theta)$ y $\sqrt{p_2} = \sin(\theta)$ .

Una forma de dibujar elipses es mediante un mecanismo llamado Trasmallo de Arquímedes . Como se describe en wiki: Consta de dos lanzaderas confinadas ("trasmallo") en canales o raíles perpendiculares, y de una varilla que se une a las lanzaderas mediante pivotes situados en posiciones fijas a lo largo de la varilla. Cuando las lanzaderas se mueven hacia delante y hacia atrás, cada una a lo largo de su canal, el extremo de la varilla se desplaza siguiendo una trayectoria elíptica. Este principio se ilustra en la siguiente figura.

Ahora analicemos geométricamente un caso de este trasmallo cuando la lanzadera vertical está a $A$ y la lanzadera horizontal está en $B$ formando un ángulo de $\theta$ . Debido a la construcción, $\left|BX\right| = x_2$ y $\left| AB \right| = x_1-x_2$ , $\forall \theta$ (aquí $x_1\geq x_2$ se supone wlog).

enter image description here

Tracemos una línea desde el origen, $OC$ que es perpendicular a la varilla. Se puede demostrar que $\left| OC \right|=(x_1-x_2) \sin(\theta) \cos(\theta)$ . Para esta variable aleatoria específica \begin{eqnarray} Var(X) &=& (x_1^2p_1 +x_2^2p_2) - (x_1p_1+x_2p_2)^2 \\ &=& x_1^2p_1 +x_2^2p_2 - x_1^2p_1^2 - x_2^2p_2^2 - 2x_1x_2p_1p_2 \\ &=& x_1^2(p_1-p_1^2) + x_2^2(p_2-p_2^2) - 2x_1x_2p_1p_2 \\ &=& p_1p_2(x_1^2- 2x_1x_2 + x_2^2) \\ &=& \left[(x_1-x_2)\sqrt{p_1}\sqrt{p_2}\right]^2 = \left|OC \right|^2 \end{eqnarray} Por lo tanto, la distancia perpendicular $\left|OC \right|$ desde el origen hasta la varilla es en realidad igual a la desviación típica, $\sigma$ .

Si calculamos la longitud del segmento desde $C$ a $X$ : \begin{eqnarray} \left|CX\right| &=& x_2 + (x_1-x_2)\cos^2(\theta) \\ &=& x_1\cos^2(\theta) +x_2\sin^2(\theta) \\ &=& x_1p_1 + x_2p_2 = E[X] \end{eqnarray}

Aplicando el Teorema de Pitágoras en el triángulo OCX, obtenemos \begin{equation} E[X^2] = Var(X) + E[X]^2. \end{equation}

En resumen para un trasmallo que describe todas las posibles variables aleatorias de valor discreto que toman valores $\{x_1,x_2\}$ , $\sqrt{E[X^2]}$ es la distancia del origen a la punta del mecanismo y la desviación típica $\sigma$ es la distancia perpendicular a la varilla.

Nota : Obsérvese que cuando $\theta$ es $0$ o $\pi/2$ , $X$ es completamente determinista. Cuando $\theta$ es $\pi/4$ acabamos con la máxima varianza.

3voto

Lam Puntos 6

Se puede reorganizar de la siguiente manera:

$$ \begin{eqnarray} Var(X) &=& E[X^2] - (E[X])^2\\ E[X^2] &=& (E[X])^2 + Var(X) \end{eqnarray} $$

Entonces, interprétese como sigue: el cuadrado esperado de una variable aleatoria es igual al cuadrado de su media más la desviación esperada al cuadrado de su media.

3voto

Christopher Puntos 6688

La intuición general es que se pueden relacionar estos momentos utilizando el Teorema de Pitágoras (TP) en un espacio vectorial convenientemente definido, demostrando que dos de los momentos son perpendiculares y el tercero es la hipotenusa. Lo único que hay que hacer es demostrar que los dos catetos son ortogonales.

A efectos de lo que sigue, supondré que te referías a medias y varianzas muestrales con fines de cálculo y no a momentos de distribuciones completas. Es decir:

$$ \begin{array}{rcll} E[X] &=& \frac{1}{n}\sum x_i,& \rm{mean, first\ central\ sample\ moment}\\ E[X^2] &=& \frac{1}{n}\sum x^2_i,& \rm{second\ sample\ moment\ (non-central)}\\ Var(X) &=& \frac{1}{n}\sum (x_i - E[X])^2,& \rm{variance, second\ central\ sample\ moment} \end{array} $$

(donde todas las sumas son superiores a $n$ artículos).

Como referencia, la prueba elemental de $Var(X) = E[X^2] - E[X]^2$ es sólo empujar símbolos: $$ \begin{eqnarray} Var(X) &=& \frac{1}{n}\sum (x_i - E[X])^2\\ &=& \frac{1}{n}\sum (x^2_i - 2 E[X]x_i + E[X]^2)\\ &=& \frac{1}{n}\sum x^2_i - \frac{2}{n} E[X] \sum x_i + \frac{1}{n}\sum E[X]^2\\ &=& E[X^2] - 2 E[X]^2 + \frac{1}{n} n E[X]^2\\ &=& E[X^2] - E[X]^2\\ \end{eqnarray} $$

Aquí hay poco significado, sólo manipulación elemental del álgebra. Uno podría notar que $E[X]$ es una constante dentro de la suma, pero eso es todo.

Ahora en el espacio vectorial/interpretación geométrica/intuición, lo que mostraremos es la ecuación ligeramente reordenada que corresponde a PT, que

$$ \begin{eqnarray} Var(X) + E[X]^2 &=& E[X^2] \end{eqnarray} $$

Así que considera $X$ la muestra de $n$ como vector en $\mathbb{R}^n$ . Y vamos a crear dos vectores $E[X]{\bf 1}$ y $X-E[X]{\bf 1}$ .

El vector $E[X]{\bf 1}$ tiene la media de la muestra como cada una de sus coordenadas.

El vector $X-E[X]{\bf 1}$ es $\langle x_1-E[X], \dots, x_n-E[X]\rangle$ .

Estos dos vectores son perpendiculares porque el producto punto de los dos vectores resulta ser 0: $$ \begin{eqnarray} E[X]{\bf 1}\cdot(X-E[X]{\bf 1}) &=& \sum E[X](x_i-E[X])\\ &=& \sum (E[X]x_i-E[X]^2)\\ &=& E[X]\sum x_i - \sum E[X]^2\\ &=& n E[X]E[X] - n E[X]^2\\ &=& 0\\ \end{eqnarray} $$

Por tanto, los dos vectores son perpendiculares, lo que significa que son los dos catetos de un triángulo rectángulo.

Entonces por PT (que se cumple en $\mathbb{R}^n$ ), la suma de los cuadrados de las longitudes de los dos catetos es igual al cuadrado de la hipotenusa.

Por la misma álgebra utilizada en la aburrida demostración algebraica de arriba, mostramos que obtenemos que $E[X^2]$ es el cuadrado del vector hipotenusa:

$(X-E[X])^2 + E[X]^2 = ... = E[X^2]$ donde el cuadrado es el producto punto (y en realidad es $E[x]{\bf 1}$ y $(X-E[X])^2$ es $Var(X)$ .

Lo interesante de esta interpretación es la conversión de una muestra de $n$ elementos de una distribución univariante a un espacio vectorial de $n$ dimensiones. Esto es similar a $n$ muestras bivariadas que se interpretan realmente como dos muestras en $n$ variables.

En un sentido es suficiente, el triángulo rectángulo a partir de vectores y $E[X^2]$ aparece como la hipotenusa. Dimos una interpretación (vectores) para estos valores y mostramos que se corresponden. Eso es bastante guay, pero poco esclarecedor desde el punto de vista estadístico o geométrico. En realidad no diría por qué y sería mucha maquinaria conceptual extra para, al final sobre todo, reproducir la demostración puramente algebraica que ya teníamos al principio.

Otra parte interesante es que la media y la varianza, aunque intuitivamente miden el centro y la dispersión en una dimensión, son ortogonales en $n$ dimensiones. ¿Qué significa eso de que son ortogonales? No lo sé. ¿Hay otros momentos que sean ortogonales? ¿Existe un sistema de relaciones más amplio que incluya esta ortogonalidad? ¿Momentos centrales frente a momentos no centrales? No lo sé.

1voto

olle Puntos 3904

Siento no tener la habilidad para elaborar y dar una respuesta adecuada, pero creo que la respuesta está en el concepto físico de mecánica clásica de momentos, especialmente la conversión entre momentos "brutos" centrados en 0 y momentos centrales centrados en la media. Hay que tener en cuenta que la varianza es el momento central de segundo orden de una variable aleatoria.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X