1 votos

La desigualdad de Schwarz en álgebra lineal y teoría de la probabilidad

El álgebra lineal establece la desigualdad de Schwarz como $$\lvert\mathbf x^\mathrm T\mathbf y\rvert\le\lVert\mathbf x\rVert\lVert\mathbf y\rVert\tag 1$$ Sin embargo, la teoría de la probabilidad lo establece como $$(\mathbf E[XY])^2\le\mathbf E[X^2]\mathbf E[Y^2]\tag 2$$ Comparando $\lvert\sum_i x_iy_i\rvert\le\sqrt{\sum_i x_i^2\sum_i y_i^2}$ con $\lvert\sum_y\sum_x xyp_{X,Y}(x,y)\rvert\le\sqrt{\sum_x x^2p_X(x)\sum_y y^2p_Y(y)}$ vemos que $(1)$ y $(2)$ son equivalentes cuando $p_{X,Y}(x,y)=\begin{cases}\frac1n&\text{if $x=x_i$ and $y=y_i$ for $i\in\{1,2,\cdots,n\}$}\\0&\text{otherwise}\end{cases}$ . Así, $(2)$ puede considerarse como una forma más general de la desigualdad.

Otra forma de pensar en esto es comparar $\lvert\cos\theta\rvert=\frac{\lvert\mathbf x^\mathrm T\mathbf y\rvert}{\lVert\mathbf x\rVert\lVert\mathbf y\rVert}\le1$ con $\lvert\rho\rvert=\frac{\lvert\mathbf{cov}(X,Y)\rvert}{\sqrt{\mathbf{var}(X)\mathbf{var}(Y)}}\le1$ . El primero es exactamente $(1)$ mientras que el segundo se convierte en $(2)$ sólo cuando $\mathbf E[X]=\mathbf E[Y]=0$ . En cierto sentido, podemos ver $\mathbf x^\mathrm T\mathbf y$ como una forma especial de $\mathbf{cov}(X,Y)$ . Entonces, se deduce que $\mathbf x^\mathrm T\mathbf x$ es una forma de $\mathbf{var}(X)$ y $\lVert\mathbf x\rVert$ es una forma de $\sqrt{\mathbf{var}(X)}$ .

¿Cuál es la forma especial de $\mathbf E[X]$ y cómo entendemos $\mathbf E[X]=\mathbf E[Y]=0$ en álgebra lineal? Con $p_{X,Y}$ definida anteriormente, tenemos $\mathbf E[XY]=\frac{\mathbf x^\mathrm T\mathbf y}n$ pero $\mathbf{cov}(X,Y)\ne\mathbf E[XY]$ a menos que $\mathbf E[X]=0$ o $\mathbf E[Y]=0$ . ¿Cómo podemos obtener una relación entre $\mathbf{cov}(X,Y)$ y $\mathbf x^\mathrm T\mathbf y$ ?

0voto

W. Zhu Puntos 25

Después de leer Respuesta de J.G. y algo de reflexión, he llegado a una respuesta satisfactoria. Publicaré mis ideas a continuación.

Dejemos que $\mathbf x\in\Bbb R^n$ denotan una variable aleatoria uniforme discreta con cada componente correspondiente a cada resultado. Entonces $\mathbf E[\mathbf x]$ es la media de los componentes, y $\mathbf E[\mathbf x]=0$ significa que los componentes suman cero. Así, para las variables aleatorias de media cero, podemos elegir $n-1$ y establecer el último componente como $-\sum_{i=1}^{n-1}x_i$ . Estos vectores forman un $n-1$ -subespacio dimensional. Podemos llevar cualquier vector a este subespacio centrado $C$ restando a cada componente la media de todos los componentes.

Ahora consideramos dos vectores $\mathbf x$ y $\mathbf y$ en $C$ . Podemos utilizar una matriz para representar la distribución conjunta. Pongamos $x_i$ en las filas y $y_i$ en las columnas, y considerar esta matriz de distribución conjunta: $$D= \begin{bmatrix} \frac1n&0&0&\cdots&0\\ 0&\frac1n&0&\cdots&0\\ \vdots&\vdots&\vdots&\ddots&\vdots\\ 0&0&0&\cdots&\frac1n \end{bmatrix}$$

Esta distribución es especial porque pone pesos iguales en las entradas diagonales y peso cero en las entradas no diagonales. Podemos llamarla distribución conjunta diagonal uniforme discreta. Es fácil ver que $\mathbf x$ y $\mathbf y$ son uniformes discretos pero no independientes ( $\mathbf x$ ser $x_i$ fuerzas $\mathbf y$ para ser $y_i$ ).

Bajo estos supuestos, $\mathbf{cov}(\mathbf x, \mathbf y)=\frac{\mathbf x^\mathrm T\mathbf y}n$ , $\mathbf{var}(\mathbf x)=\frac{\mathbf x^\mathrm T\mathbf x}n$ , $\sigma_{\mathbf x}=\frac{\lVert\mathbf x\rVert}{\sqrt n}$ y $\rho=\frac{\mathbf{cov}(\mathbf x,\mathbf y)}{\sigma_{\mathbf x}\sigma_{\mathbf y}}=\frac{\mathbf x^\mathrm T\mathbf y}{\lVert\mathbf x\rVert\lVert\mathbf y\rVert}=\cos\theta$ . Cuando $\mathbf x$ y $\mathbf y$ son vectores ortogonales, son variables aleatorias no correlacionadas. Aunque son vectores linealmente independientes, no son variables aleatorias independientes.

Ahora tenemos una correspondencia entre la covarianza y el producto punto, la desviación estándar y la longitud, el coeficiente de correlación y el coseno del ángulo entre dos vectores, y la descorrelación y la ortogonalidad. Así, la desigualdad de Schwarz $\lvert\cos\theta\rvert\le1$ coincide con $\lvert\rho\rvert\le1$ .

Veamos otros 3 ejemplos que relacionan el álgebra lineal con la teoría de la probabilidad:

  1. La desigualdad del triángulo $\lVert\mathbf x+\mathbf y\rVert\le\lVert\mathbf x\rVert+\lVert\mathbf y\rVert$ coincide con $\sigma_{X+Y}\le\sigma_X+\sigma_Y$ .
  2. $(\mathbf x+\mathbf y)^\mathrm T(\mathbf x+\mathbf y)=\mathbf x^\mathrm T\mathbf x+\mathbf y^\mathrm T\mathbf y+2\mathbf x^\mathrm T\mathbf y$ coincide con $\mathbf{var}(X+Y)=\mathbf{var}(X)+\mathbf{var}(Y)+2\mathbf{cov}(X,Y)$ .
  3. Teorema de Pitágoras $\lVert\mathbf b\rVert^2=\lVert\mathbf p\rVert^2+\lVert\mathbf e\rVert^2$ con proyección ortogonal $\mathbf p$ y error $\mathbf e=\mathbf b-\mathbf p$ coincide con $\mathbf{var}(\Theta)=\mathbf{var}(\hat\Theta)+\mathbf{var}(\tilde\Theta)$ , con un estimador no correlacionado $\hat\Theta$ y el error de estimación $\tilde\Theta=\Theta-\hat\Theta$ . De hecho, esto es sólo la ley de varianza total $\mathbf{var}(\Theta)=\mathbf{var}(\mathbf E[\Theta|X])+\mathbf E[\mathbf{var}(\Theta|X)]$ con $\hat\Theta=\mathbf E[\Theta|X]$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X