El álgebra lineal establece la desigualdad de Schwarz como $$\lvert\mathbf x^\mathrm T\mathbf y\rvert\le\lVert\mathbf x\rVert\lVert\mathbf y\rVert\tag 1$$ Sin embargo, la teoría de la probabilidad lo establece como $$(\mathbf E[XY])^2\le\mathbf E[X^2]\mathbf E[Y^2]\tag 2$$ Comparando $\lvert\sum_i x_iy_i\rvert\le\sqrt{\sum_i x_i^2\sum_i y_i^2}$ con $\lvert\sum_y\sum_x xyp_{X,Y}(x,y)\rvert\le\sqrt{\sum_x x^2p_X(x)\sum_y y^2p_Y(y)}$ vemos que $(1)$ y $(2)$ son equivalentes cuando $p_{X,Y}(x,y)=\begin{cases}\frac1n&\text{if $x=x_i$ and $y=y_i$ for $i\in\{1,2,\cdots,n\}$}\\0&\text{otherwise}\end{cases}$ . Así, $(2)$ puede considerarse como una forma más general de la desigualdad.
Otra forma de pensar en esto es comparar $\lvert\cos\theta\rvert=\frac{\lvert\mathbf x^\mathrm T\mathbf y\rvert}{\lVert\mathbf x\rVert\lVert\mathbf y\rVert}\le1$ con $\lvert\rho\rvert=\frac{\lvert\mathbf{cov}(X,Y)\rvert}{\sqrt{\mathbf{var}(X)\mathbf{var}(Y)}}\le1$ . El primero es exactamente $(1)$ mientras que el segundo se convierte en $(2)$ sólo cuando $\mathbf E[X]=\mathbf E[Y]=0$ . En cierto sentido, podemos ver $\mathbf x^\mathrm T\mathbf y$ como una forma especial de $\mathbf{cov}(X,Y)$ . Entonces, se deduce que $\mathbf x^\mathrm T\mathbf x$ es una forma de $\mathbf{var}(X)$ y $\lVert\mathbf x\rVert$ es una forma de $\sqrt{\mathbf{var}(X)}$ .
¿Cuál es la forma especial de $\mathbf E[X]$ y cómo entendemos $\mathbf E[X]=\mathbf E[Y]=0$ en álgebra lineal? Con $p_{X,Y}$ definida anteriormente, tenemos $\mathbf E[XY]=\frac{\mathbf x^\mathrm T\mathbf y}n$ pero $\mathbf{cov}(X,Y)\ne\mathbf E[XY]$ a menos que $\mathbf E[X]=0$ o $\mathbf E[Y]=0$ . ¿Cómo podemos obtener una relación entre $\mathbf{cov}(X,Y)$ y $\mathbf x^\mathrm T\mathbf y$ ?