Este post se pregunta "¿por qué un conocido y ampliamente utilizado estimador de la covarianza de la muestra tiene valor esperado de cero, en una situación en la que las variables involucradas se caracteriza por la no-cero y la igualdad de pares de covarianza"?
Específicamente, la configuración es la siguiente: tenemos una secuencia de variables aleatorias idénticamente distribuidas $\{X_1,...X_n\}$, y otra secuencia $\{Y_1,...,Y_n\}$ que también han distribuciones idénticas, pero diferentes de las $X$'s. Por otra parte, el siguiente se tiene:
$${\rm Cov}(X_i,Y_j) = {\rm Cov}(X_j,Y_i) \neq 0, \;\forall \{i \neq j\}\cup \{i=j\} \in \{1,...,n\} \tag{1}$$
Nota que el matemático anterior implica también que
$$ {\rm Cov}(X_i,Y_j) = {\rm Cov}(X_i,Y_i) \tag{2}$$
Esto es crítico para los resultados a seguir.
(Nota: en un principio me han descrito las asociaciones anteriormente como "equi-correlación cruzada" pero si nos fijamos en los comentarios del hilo, parece que el término describe algo más débil. Así que he borrado todas las referencias a él).
Ya que los elementos de cada secuencia son idénticamente distribuidas, tenemos que $E(X_i) = E(X_j) = E(X)$$E(Y_i) = E(Y_j) = E(Y)$. A continuación, en orden a disponer de la igualdad de pares, los coeficientes de correlación, para$i\neq j$, pero también para $i=j$, debemos tener
$$E(X_iY_j) = E(X_jY_i) = E(X_iY_i) = E(XY) \neq 0, \;\forall i,j \in \{1,...,n\}$$
Se nos dice a considerar lo que nosotros conocemos como un imparcial estimador de la Covarianza
$${\rm \hat Cov}(X, Y) = \frac 1{n-1}\sum_{i=1}^n(X_i-\bar X)(Y_i-\bar Y)$$
con $\bar X = \frac 1{n}\sum_{i=1}^nX_i$, y, asimismo, para la $Y$'s.
La expansión del producto, obtenemos
$${\rm \hat Cov}(X, Y) = \frac 1{n-1}\sum_{i=1}^nX_iY_i - \frac n{n-1}\left(\frac 1n \sum_{i=1}^nX_i\right) \left(\frac 1n \sum_{i=1}^nY_i\right)$$
$$= \frac 1{n-1}\sum_{i=1}^nX_iY_i - \frac n{n-1}\frac 1{n^2}\left(\sum_{i=1}^n\sum_{j=1}^nX_iY_j\right)$$
Tomando el valor esperado del estimador
$$E\left[{\rm \hat Cov}(X, Y)\right] = \frac 1{n-1}\sum_{i=1}^nE(X_iY_i) - \frac n{n-1}\frac 1{n^2}\left(\sum_{i=1}^n\sum_{j=1}^nE(X_iY_j)\right)$$
Anteriormente, hemos asumido que $E(X_iY_i) = E(X_iY_j) = E(X_jY_i) = E(XY)$. Más sobre el doble de la suma de la ha $n^2$ elementos, por lo que tenemos
$$E\left[{\rm \hat Cov}(X, Y)\right] = \frac 1{n-1}nE(XY) - \frac n{n-1}\frac 1{n^2}n^2E(XY) =0$$
Gran. Tenemos "en serio enredado" (y "lineal") variables aleatorias, y el imparcial de la covarianza de la muestra, de un modo casi "automática" métrica para calcular cuándo llegar a conocer los datos, tiene el valor esperado de cero...
Algunos trenzado, "Teatro del Absurdo" la intuición puede ser obtenida a partir de la frase "si no podemos distinguir entre el par $\{X_i, Y_i\}$ y el par $\{X_i, Y_j\}$, en cuanto a la covarianza, que "la conclusión" de que dicha covarianza es cero", pero por el momento esto parece más absurdo que intuitivo.
Entiendo que la situación descrita por las suposiciones $(1)$ $(2)$ puede ser de bastante limitado aplicado interés, incluso para los moderadamente grande $n$, porque si tratamos de plasmarlo en el mundo real de las relaciones, las imágenes también muchos y, al mismo tiempo, muy similar a las asociaciones, a ser probable/creíble.
Pero creo que éste no es sólo un "teórico de la curiosidad", pero nos puede estar diciendo algo útil acerca de las limitaciones de nuestras herramientas de... de algo que puede ser ya conocida -pero ya que no es muy conocido para mí, me decidí a publicar como una pregunta.
Todas las ideas o explicaciones para entender mejor la situación anterior?
"Laico" enfoques avanzados de matemática son igualmente bienvenidos.