Este post presenta un potente método de razonamiento que evita una gran cantidad de álgebra y cálculo. Para aquellos familiarizados con este método, el trabajo es de manera automática y natural que la primera respuesta a una pregunta como esta es "es obvio!" Pero tal vez no es tan evidente, hasta que haya visto el método. Por lo tanto, todos los detalles están explicados, paso a paso.
De fondo
Hay varias fórmulas para la varianza de los datos de $\mathbf{x}=x_1, x_2, \ldots, x_n$ (con una media de $\bar x = (x_1+\cdots + x_n)/n$), incluyendo
$$\operatorname{Var}(\mathbf{x}) = \frac{1}{n}\sum_{i=1}^n (x_i - \bar x)^2 = \frac{1}{n}\left(\sum_{i=1}^n x_i^2\right) - \bar x^2.\tag{1}$$
Esto determina la covarianza de los datos apareados $(x_1,y_1), \ldots, (x_n, y_n)$ a través de
$$\operatorname{Cov}(\mathbf{x}, \mathbf{y}) = \frac{1}{4}\left(\operatorname{Var}(\mathbf{x}+\mathbf{y}) - \operatorname{Var}(\mathbf{x}-\mathbf{y})\right).$$
La fórmula implícita en la referencia de la covarianza con crayones post es
$$C(\mathbf{x}, \mathbf{y}) = \sum_{i=1}^{n-1} \sum_{j=i+1}^n (x_j - x_i)(y_j - y_i) = \frac{1}{2}\sum_{i,j=1}^n (x_j - x_i)(y_j - y_i).\tag{2}$$
Que post afirma $C$ es proporcional a la covarianza. La constante de proporcionalidad $c(n)$ puede (y lo hace) varían con $n$. Por lo tanto, cuando se $\mathbf{x}=\mathbf{y}$ una implicación de esta afirmación es que
$$C(\mathbf{x}, \mathbf{x}) = c(n) \operatorname{Var}(\mathbf{x}).$$
Análisis
Aunque esto puede ser demostrado con la fuerza bruta de álgebra, hay una mejor manera: vamos a explotar las propiedades fundamentales de la covarianza. Las propiedades que serían esas? Me gustaría sugerir lo siguiente son básicas:
Independencia de la ubicación. Que es, $$\operatorname{Cov}(\mathbf{x}, \mathbf{y}) = \operatorname{Cov}(\mathbf{x}-\mathbf{a}, \mathbf{y})$$ for any number $un$. (The expression $\mathbf{x}-\mathbf{a}$ refers to the dataset $x_1, x_2-un, \ldots, x_n -$.)
La multilinealidad. Esto implica $$\operatorname{Cov}(\lambda\,\mathbf{x}, \mathbf{y}) = \lambda\,\operatorname{Cov}(\mathbf{x}, \mathbf{y})$$ for any number $\lambda$. (The expression $\lambda\mathbf{x}$ refers to the dataset $\lambda x_1, \lambda x_2, \ldots, \lambda x_n$.)
La simetría. La covarianza de $\mathbf{x}$ $\mathbf{y}$ es la covarianza de $\mathbf{y}$ y $\mathbf{x}$: $$\operatorname{Cov}(\mathbf{x}, \mathbf{y}) =\operatorname{Cov}(\mathbf{y}, \mathbf{x}).$$
La invariancia bajo permutaciones. La covarianza no cambia cuando nos re-índice de la $(x_i, y_i)$. Formalmente, $$\operatorname{Cov}(\mathbf{x}, \mathbf{y}) = \operatorname{Cov}(\mathbf{x}^\sigma, \mathbf{y}^\sigma)$$ for any permutation $\sigma\en\mathfrak{S}_n$. (Expressions like $\mathbf{x}^\sigma$ represent re-ordering the $x_i$ according to $\sigma$, so that $\mathbf{x}^\sigma = x_{\sigma(1)}, x_{\sigma(2)}, \ldots, x_{\sigma(n)}.$)
Todas estas propiedades obviamente espera para $\operatorname{Var}$ $C$ a partir de la inspección de las formas de expresiones $(1)$$(2)$. El único que podría necesitar ningún tipo de explicación es la ubicación de la independencia. Sin embargo, un constante cambio de los valores de la $x_i$ cambios ni los residuos ni de las diferencias:
$$x_i - \bar{x} = (x_i - a) - \overline{x - a}$$
y
$$x_j - x_i = (x_j - a) - (x_i - a).$$
En consecuencia, es evidente que la primera versión de $(1)$ $(2)$ son independiente de la ubicación.
Solución
Aquí, entonces, es el razonamiento. Debido a $C$ es simétrica y multilineal, es una forma cuadrática completamente determinado por los coeficientes $c_{ij} = c_{ji}$:
$$C(\mathbf{x}, \mathbf{y}) = \sum_{i, j=1}^n c_{ij}\, x_i y_j.$$
Porque es permutación-invariante, $c_{ij} = c_{i^\prime j^\prime}$ para cualquier índices de $i,j,i^\prime,j^\prime$ que $i\ne j$$i^\prime \ne j^\prime$; también, $c_{ii} = c_{i^\prime i^\prime}$ para todos los índices de $i$$i^\prime$. Por lo tanto, $C$ está determinado por dos números, decir $c_{11}$$c_{12}$. Finalmente, uno de estos números se determina que los otros dos, en virtud de la ubicación de invariancia: que condición significa
$$0 = C(\mathbf{0},\mathbf{0}) \overset{\text{location-invariance}}{=} C(\mathbf{1},\mathbf{0}) \overset{\text{symmetry}}{=} C(\mathbf{0},\mathbf{1}) \overset{\text{location-invariance}}{=} C(\mathbf{1},\mathbf{1})$$
(donde "$\mathbf{0}$" y "$\mathbf{1}$" se refieren a la constante $n$-vectores con estos valores). Pero
$$0=C(\mathbf{1},\mathbf{1}) = \sum_{i,j}^n c_{ij} = nc_{11} + (n^2-n)c_{12},$$ determining each of $c_{11}$ and $c_{12}$ en términos de la otra.
Esto demuestra el punto principal: $C$ debe ser proporcional a $\operatorname{Cov}$, ya que cada uno es determinado por la sola de sus coeficientes. Para encontrar la constante de proporcionalidad, inspeccionar las dos fórmulas $(1)$$(2)$, buscando todas las apariencias de $x_1^2$: se puede leer el valor asociado de $c_{11}$ de ellos. A partir de la segunda versión de $(1)$, el coeficiente de $x_1^2$ claramente es $1/n - (1/n)^2$. Desde la primera versión de $(2)$,$\mathbf{y} = \mathbf{x}$, el coeficiente de $x_1^2$ claramente es $n-1$. (Geométricamente, cada punto en el diagrama de dispersión de $(\mathbf{x},\mathbf{x})$ está vinculado con $n-1$ otros, donde los cuadrados de las coordenadas aparecerán $n-1$ a veces). Por lo tanto
$$c(n) = \frac{n-1}{1/n - (1/n)^2} = n^2,$$
QED. Este fue el único cálculo necesarias para demostrar
$$\operatorname{Cov}(\mathbf{x}, \mathbf{y}) = \frac{1}{n^2}C(\mathbf{x}, \mathbf{y}) = \frac{1}{n^2}\sum_{i=1}^{n-1} \sum_{j=i+1}^n (x_j - x_i)(y_j - y_i).$$