4 votos

Límites de las entradas no diagonales de una matriz de correlación

Supongamos que todas las entradas de un $n \times n$ matriz de correlación que no se encuentran en el diagonal son iguales a $q$ . Encuentre los límites superior e inferior de los posibles valores de $q$ .

Sé que la matriz debe ser semidefinida positiva, pero ¿cómo proceder para obtener los límites superior e inferior?

Gracias.

3voto

Dilip Sarwate Puntos 14967

Considere $n$ variables aleatorias de varianza unitaria $X_1, X_2, \ldots X_n$ con la propiedad de que $\operatorname{cov}(X_i,X_j) = q$ para todos $i \neq j$ . Entonces, la matriz de covarianza de estas variables aleatorias es la misma que la matriz de correlaciones. Ahora $$\begin{align*} \operatorname{var}(X_1+X_2+\cdots+X_n) &= \sum_{i=1}^n \operatorname{var}(X_i) + 2\sum_{i=1}^n\sum_{j=i+1}^n\operatorname{cov}(X_i,X_j)\tag{1}\\ &= n + n(n-1)q\\ &\geq 0 \end{align*}$$ y por eso debe ser que $$q \geq -\frac{1}{n-1}$$ como señaló Michael Hardy en un sucinto comentario sobre la cuestión. El límite superior es, por supuesto, $q \leq 1$ . Ambos límites son alcanzables. Obviamente, si todos los $X_i$ son los même variable aleatoria $X$ entonces $q = 1$ . Para el límite inferior, supongamos que el $X_i$ son independiente variables aleatorias de varianza unitaria para que disfruten de la constante deseada correlación con $q=0$ . Para cada $i$ , set $Y_i = X_i-\bar{X}$ donde $$\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i.$$ Entonces, $$\operatorname{var}(Y_i) = \left(\frac{n-1}{n}\right)^2 + (n-1)\left(\frac{1}{n}\right)^2 = \frac{n-1}{n}$$ mientras que para $i \neq j$ , $$\begin{align} \operatorname{cov}(Y_i,Y_j) &= \operatorname{cov}(X_i - \bar{X}, Y_j- \bar{X})\\ &= \operatorname{cov}(X_i,X_j) - \operatorname{cov}(X_i,\bar{X}) - \operatorname{cov}(X_j,\bar{X})+ \operatorname{var}(\bar{X})\\ &= 0 - \frac{1}{n} - \frac{1}{n} + \frac{1}{n}\\ &= -\frac{1}{n} \end{align}$$ mostrando que todos los coeficientes de correlación tienen efectivamente el valor mínimo $$ \frac{-1/n}{\sqrt{(n-1)/n}\sqrt{(n-1)/n}} = -\frac{1}{n-1}.$$


Volviendo a $(1)$ , obsérvese que si los coeficientes de correlación son no se requiere que todos tengan el mismo valor, entonces de $(1)$ obtenemos que la suma de las $n(n-1)$ las correlaciones deben ser al menos $-n$ . Así, el media de la $n(n-1)$ correlaciones es al menos $-1/(n-1)$ y como al menos una correlación debe ser tan grande como la media, podemos afirmar que

En cualquier colección de $n$ variables aleatorias $X_1, X_2, \ldots, X_n$ con varianza finita, debe haber al menos un par de variables aleatorias $(X_i,X_j)$ (con $i\neq j$ ) para que $$\operatorname{cov}(X_i,X_j) \geq -\frac{1}{n-1}$$

1voto

Michael Hardy Puntos 128804

Como es una matriz de correlación, las entradas diagonales son iguales a 1 y las entradas no diagonales están en $[-1,1]$ . Ahora escribe la matriz como $aP+bQ$ donde $P$ es el $n\times n$ matriz en la que cada entrada es $1/n$ por lo que es la matriz de la proyección ortogonal sobre la línea donde todas las componentes del vector son iguales, y $Q = I - P$ . Entonces puedes explotar el hecho de que $P$ y $Q$ son proyecciones ortogonales complementarias sobre espacios de dimensiones $1$ y $n-1$ . De ello se deduce que la matriz $aP+bQ$ se puede diagonalizar como $$ \begin{bmatrix} a \\ & b \\ & & b \\ & & & b \\ & & & & \ddots \end{bmatrix} $$ Esta debe ser una matriz de covarianza. Para verlo, recordemos que (1) una matriz de correlación es una matriz de covarianza en la que las entradas diagonales son todas 1, y (2) si $A$ es la matriz de covarianzas de un vector aleatorio $X$ El $MAM^\top$ es la matriz de covarianzas de $MX$ ( $M$ no tiene por qué ser, por lo general, un cuadrado matriz, pero en este caso lo es).

Dado que la matriz diagonal anterior es una matriz de covarianza, $a$ y $b$ no puede ser negativo. Por lo tanto, lo que debe $q$ sea para que $a$ y $b$ ser no negativo?

0voto

Jorrit Reedijk Puntos 129

Un esquema general para la respuesta es inmediatamente obvio por la generalización del siguiente ejemplo. Supongamos que la matriz de correlación $R$ de tamaño nxn donde en el ejemplo n=5 y $R=L \cdot L^T$ . Entonces, defina L con un valor desconocido $a$ $$ L=\begin{bmatrix} a&a&a&a&.&.&.&.&.&. \\ -a&.&.&.&a&a&a&.&.&. \\ .&-a&.&.&-a&.&.&a&a&. \\ .&.&-a&.&.&-a&.&-a&.&a \\ .&.&.&-a&.&.&-a&.&-a&-a \\ \end{bmatrix} $$ Entonces todas las entradas no diagonales en $R=L \cdot L^T$ son $r_{k,j}=-a^2$ y las entradas diagonales son $r_{k,k}=4 a^2$ . Para tener $r_{k,k}=1$ debemos tener $a=\sqrt{1 \over 4} $ y por lo tanto $q = r_{k,j}=-{1 \over 4}$ .
Es inmediatamente obvio cómo se generaliza esto, así que para algunos $n$ tenemos $q=-{1 \over n-1}$

Desgraciadamente, esto es sólo un ejemplo ilustrativo hasta ahora. Estaría bien demostrar que esto define también el valor más alto posible para $-q$ pero no veo por el momento cómo se podría hacer de una manera tan obvia...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X