Deje $X$ ser una variable aleatoria. Luego de su varianza (dispersión) se define como el $D(X)=E((X-E(X))^2)$. Como yo lo entiendo, se supone que esta es una medida de qué tan lejos de la media que podemos esperar para encontrar el valor de $X$.
Esto parecería sugerir que la generalización natural de la varianza para el caso de que $X = (X_1,X_2,\ldots,X_n)$ es aleatorio vector, debe ser $D(X)=E((X-E(X))^T(X-E(X)))$. Aquí vectores se entiende por columnas, como de costumbre. Esta generalización sería de nuevo, naturalmente, medir qué tan lejos de la media (expectativa) que podemos esperar encontrar el valor de los vectores $X$.
La costumbre de generalización, sin embargo, es $D(X)=E((X-E(X))(X-E(X))^T)$, la varianza-covarianza de la matriz que, como yo lo veo, las medidas de la correlación de los componentes.
¿Por qué es este el preferido de generalización? Es $E((X-E(X))^T(X-E(X)))$ también se utiliza y tiene un nombre?
La varianza-covarianza de la matriz parece contener más información. Es esta la razón principal o hay algo más profundo pasando aquí?