62 votos

¿Por qué la matriz de correlación necesita ser semidefinida positiva y qué significa ser o no ser semidefinida positiva?

He estado investigando el significado de la propiedad semi-definida positiva de las matrices de correlación o covarianza.

Estoy buscando cualquier información sobre

  • Definición de semi-definición positiva;
  • Sus propiedades importantes, implicaciones prácticas;
  • La consecuencia de tener determinante negativo, impacto en el análisis multivariante o resultados de simulación, etc.

8 votos

¿Quieres entender qué es la semi-definitud, o quieres saber por qué las matrices de correlación deben ser semi-definidas, o quieres saber qué resultados importantes se derivan de esta propiedad?

8 votos

Si las matrices de correlación no fueran semi-positivas, entonces podrías obtener varianzas que fueran negativas.

0 votos

He editado un poco tu pregunta, por favor revísala. Además, ten en cuenta que una matriz con un número par de eigenvalores negativos seguirá teniendo determinante positivo.

61voto

Dilip Sarwate Puntos 16161

La varianza de una suma ponderada $\sum_i a_i X_i$ de variables aleatorias debe ser no negativa para todas las elecciones de números reales $a_i$. Dado que la varianza se puede expresar como $$\operatorname{var}\left(\sum_i a_i X_i\right) = \sum_i \sum_j a_ia_j \operatorname{cov}(X_i,X_j) = \sum_i \sum_j a_ia_j \Sigma_{i,j},$$ tenemos que la matriz de covarianza $\Sigma = [\Sigma_{i,j}]$ debe ser semidefinida positiva (a veces llamada no negativa definida). Recordemos que una matriz $C$ se llama semidefinida positiva si y solo si $$\sum_i \sum_j a_ia_j C_{i,j} \geq 0 \;\; \forall a_i, a_j \in \mathbb R.$$

1 votos

Gracias, retiré mi voto negativo pero no voté positivo porque no responde sobre las implicaciones prácticas. Digamos que tengo una matriz que no es definitiva positiva (debido, por ejemplo, a una modificación por un 'experto'). ¿Qué sucedería si la uso para calibrar y/o simular datos? Específicamente, ¿es esto un problema real cuando se intenta estudiar una gran suma y solo hay unos pocos valores propios negativos? ¿Cuál sería un algoritmo eficiente para transformar una matriz de correlación no semi-definitiva positiva a una semi-definitiva positiva? ¿Cuál sería el impacto de este algoritmo?

1 votos

@Were_cat Gracias por revertir la votación negativa.

0 votos

¿Podrías por favor explicar la primera igualdad en la primera ecuación?

48voto

Christian Puntos 163

La respuesta es bastante simple.

La matriz de correlación se define así:

Sea $X = [x_1, x_2, ..., x_n]$ la matriz de datos de $m\times n$: $m$ observaciones, $n$ variables.

Define $X_b= [\frac{(x_1-\mu_1 e)}{s_1}, \frac{(x_2-\mu_2 e)}{s_2}, \frac{(x_3-\mu_3 e)}{s_3}, ...]$ como la matriz de datos normalizados, con $\mu_1$ siendo la media para la variable 1, $\mu_2$ la media para la variable 2, etc., y $s_1$ la desviación estándar de la variable 1, etc., y $e$ es un vector de todos 1s.

La matriz de correlación es entonces

$$C=X_b' X_b$$

dividido por $m-1$.

Una matriz $A$ es semidefinida positiva si no hay ningún vector $z$ tal que $z' A z <0$.

Supongamos que $C$ no es definida positiva. Entonces existe un vector $w$ tal que $w' C w<0$.

Sin embargo $(w' C w)=(w' X_b' X_b w)=(X_b w)'(X_b w) = {z_1^2+z_2^2...}$, donde $z=X_b w$, y por lo tanto $w' C w$ es una suma de cuadrados y por lo tanto no puede ser menor que cero.

Por lo tanto no solo la matriz de correlación sino cualquier matriz $U$ que pueda escribirse en la forma $V' V$ es semidefinida positiva.

5 votos

Esta es, de lejos, la respuesta más clara, concisa y útil. ¡Gracias!

20voto

Uri Puntos 111

(La posible falta de coherencia en el razonamiento sería mía. No soy matemático: esto es una representación, no una prueba, y proviene de mis experimentos numéricos, no de libros.)

  1. Una matriz semidefinida positiva (psd), también llamada matriz de Gram, es una matriz con no eigenvalores negativos. Una matriz con eigenvalores negativos no es semidefinida positiva, o no es de Gram. Ambas pueden ser definidas (sin eigenvalores en cero) o singulares (con al menos un eigenvalor en cero). [La palabra "de Gram" se usa en varios sentidos diferentes en matemáticas, así que quizás debería evitarse.]
  2. En estadística, usualmente aplicamos estos términos a una matriz de tipo SSCP, también llamada matriz de producto escalar. Las matrices de correlación o covarianza son casos particulares de dicha matriz.
  3. Cualquier matriz de producto escalar es una característica resumida de algunos datos multivariados (una nube). Por ejemplo, dadas $n$ casos de datos con $p$ variables, podríamos calcular la matriz de covarianza $p$X$p$ entre las variables o la matriz de covarianza $n$X$n$ entre los casos. Cuando la calculas a partir de datos reales, la matriz siempre será de Gram. Puedes obtener una matriz no de Gram (no psd) si (1) es una matriz de similitud medida directamente (es decir, no calculada a partir de los datos) o si la medida de similitud no es de tipo SSCP; (2) los valores de la matriz se ingresaron incorrectamente; (3) la matriz es de hecho de Gram pero es (o está tan cerca de ser) singular que a veces el método espectral de cálculo de eigenvalores produce valores negativos muy pequeños en lugar de verdaderos en cero o valores positivos muy pequeños.
  4. Una alternativa y equivalente resumen para la nube es la matriz de distancias euclidianas. Un producto escalar (como la covarianza) entre un par de elementos y la distancia euclidiana al cuadrado correspondiente entre ellos están ligados por la ley de cosenos (teorema del coseno, mira la imagen allí): $d_{12}^2 = h_1^2+h_2^2-2s_{12}$, donde el $s$ es el producto escalar y los $h$ son las distancias de los dos elementos desde el origen. En el caso de la matriz de covarianza entre las variables $X$ e $Y$, esta fórmula se ve así $d_{xy}^2 = \sigma_x^2+\sigma_y^2-2cov_{xy}$.
  5. Como conclusión provisional: una matriz de covarianza (o correlación u otro producto escalar) entre algunos $m$ elementos es una configuración de puntos incrustada en el espacio euclidiano, por lo que las distancias euclidianas están definidas entre todos estos $m$ puntos.
  6. Ahora, si [punto 5] se cumple exactamente, entonces la configuración de puntos es verdaderamente una configuración euclidiana que implica que la matriz de producto escalar en cuestión (por ejemplo, la de covarianza) es de Gram. De lo contrario, es no de Gram. Por lo tanto, decir que "la matriz de covarianza $m$X$m$ es positivamente semidefinida" es decir "los $m$ puntos más el origen encajan perfectamente en el espacio euclidiano".
  7. ¿Cuáles son las posibles causas o versiones de una configuración no de Gram (no euclidiana)? Las respuestas siguen al contemplar [punto 4].
    • Causa 1. El mal está entre los puntos mismos: la matriz de distancias $m$X$m$ no es totalmente euclidiana. Algunas de las distancias en pares $d$ son tales que no pueden concordar con el resto de los puntos en el espacio euclidiano. Ver Fig1.
    • Causa 2. Existe un desajuste general (a nivel de matriz) entre los $h$ y los $d$. Por ejemplo, con $d$ fijas y algunos $h$ dados, los otros $h$ solo deben variar dentro de ciertos límites para mantenerse en concordancia con el espacio euclidiano. Ver Fig2.
    • Causa 3. Existe un desajuste localizado (a nivel de par) entre un $d$ y el par de $h$ correspondientes conectados a esos dos puntos. Es decir, se viola la regla de la desigualdad triangular; esa regla exige que $h_1+h_2 \ge d_{12} \ge |h_1-h_2|$. Ver Fig3.
  8. Para diagnosticar la causa, convierte la matriz de covarianza no de Gram en matriz de distancias usando la ley de cosenos mencionada. Haz doble centrado en ella. Si la matriz resultante tiene eigenvalores negativos, la causa 1 está presente. De lo contrario, si existe algún $|cov_{ij}| \gt \sigma_i \sigma_j$, la causa 3 está presente. De lo contrario, la causa 2 está presente. A veces más de una causa se combinan en una matriz.

Fig1.

Fig1

Fig2.

Fig2

Fig3.

Fig3

2 votos

El punto 6 necesita demostración: has demostrado que una matriz de distancias euclidianas al cuadrado es p-d, pero afirmas sin probar que a cada matriz p-d le corresponde una configuración euclidiana de puntos. Además, no has conectado tu definición de p-d ("sin autovalores negativos") con ninguna de tus caracterizaciones posteriores. La idea clave llega al final (punto 8): una matriz p-d se puede usar para definir una distancia. Lógicamente, aquí es donde deberías comenzar el análisis.

0 votos

@whuber: Gracias por la crítica constructiva. Me temo que, cuando se trata de demostrar algo matemáticamente probando, me hundo. He informado parte de mi experiencia práctica (dije eso); la respuesta realmente no fue una secuencia analítica. ¿No te gustaría entonces agregar tu propia respuesta que pueda corregir/mejorar la mía? Podría resultar ser una ayuda valiosa. O puedes trabajar en mi texto para mejorarlo si consideras que no es completamente inútil.

0 votos

S. Mi punto 8 implica que dado que el doble centrado ancla una configuración de puntos en su centroide, esta operación en sí misma no introduce no euclidez (solo introduce singularidad porque el nuevo punto, centro, pertenece al mismo espacio). Por lo tanto, podemos verificar si la configuración inicial era euclidiana. ¿No es correcto?

3voto

Taylor Puntos 692

@Dilip Sarwate mencionó por qué una matriz de covarianza $\Sigma$ es semidefinida positiva, es decir, porque no tiene sentido pensar en la varianza de una combinación lineal de variables aleatorias como negativa. Escribir esto con matrices y vectores, $\tilde{w}^\intercal \Sigma \tilde{w} \ge 0$ para todo $\tilde{w}$.

Como continuación a eso, una matriz de correlación (teórica, no de muestra) $\Omega$ es semidefinida positiva por la misma razón, pero puede que no sea inmediatamente claro por qué. Todo lo que tienes que hacer es escribir la matriz de correlación en términos de una matriz de covarianza sandwich. Para cualquier vector $w$ tenemos

\begin{align*} &w^\intercal \Omega w \\ &= w^\intercal \begin{bmatrix} 1/\sqrt{\sigma_{1,1}} & 0 & \cdots & 0 \\ 0 & 1/\sqrt{\sigma_{2,2}} & \cdots & 0 \\ 0 & 0 & \ddots & \vdots \\ 0 & 0 & \cdots & 1/\sqrt{\sigma_{k,k}} \end{bmatrix} \Sigma \begin{bmatrix} 1/\sqrt{\sigma_{1,1}} & 0 & \cdots & 0 \\ 0 & 1/\sqrt{\sigma_{2,2}} & \cdots & 0 \\ 0 & 0 & \ddots & \vdots \\ 0 & 0 & \cdots & 1/\sqrt{\sigma_{k,k}} \end{bmatrix} w\\ &= \tilde{w}^\intercal \Sigma \tilde{w} \ge 0. \end{align*}

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X