96 votos

¿Cómo interpretar una matriz inversa de covarianza o de precisión?

Me preguntaba si alguien podría señalarme algunas referencias que discuten la interpretación de los elementos de la matriz de covarianza inversa, también conocida como matriz de concentración o matriz de precisión.

Tengo acceso al libro de Cox y Wermuth Dependencias Multivariadas, pero lo que busco es una interpretación de cada elemento en la matriz inversa. Wikipedia afirma: "Los elementos de la matriz de precisión tienen una interpretación en términos de correlaciones parciales y varianzas parciales," lo que me lleva a esta página. ¿Existe una interpretación sin utilizar regresión lineal? Es decir, ¿en términos de covarianzas o geometría?

4 votos

¿Leíste toda la página de Wikipedia? Hay una sección sobre geometría y sobre la independencia condicional para la distribución normal. Puedes encontrar más en este libro.

0 votos

@NRH La geometría se explica en la página de correlación parcial, de la cual ni siquiera estoy seguro de cómo está relacionada con la matriz de concentración aún. ¿El libro de modelos gráficos tiene una explicación de los elementos de la matriz de concentración? ¡Gracias!

0 votos

Por favor traduce esto manteniendo las mismas etiquetas HTML si existen

Vea la respuesta abajo.

41voto

Nathan Long Puntos 30303

Hay básicamente dos cosas que se pueden decir. La primera es que si se observa la densidad para la distribución normal multivariante (con media 0 aquí) es proporcional a $$\exp\left(-\frac{1}{2}x^T P x\right)$$ donde $P = \Sigma^{-1}$ es la inversa de la matriz de covarianza, también llamada precisión. Esta matriz es definida positiva y define a través de $$(x,y) \mapsto x^T P y$$ un producto interno en $\mathbb{R}^p$. La geometría resultante, que da un significado específico al concepto de ortogonalidad y define una norma relacionada con la distribución normal, es importante, y para entender, por ejemplo, el contenido geométrico de LDA es necesario ver las cosas a la luz de la geometría dada por $P$.

La otra cosa que se puede decir es que las correlaciones parciales se pueden leer directamente de $P$, ver aquí. La misma página de Wikipedia menciona que las correlaciones parciales, y por lo tanto las entradas de $P$, tienen una interpretación geométrica en términos del coseno de un ángulo. Lo que es, tal vez, más importante en el contexto de las correlaciones parciales es que la correlación parcial entre $X_i$ y $X_j$ es 0 si y solo si la entrada $i,j$ en $P$ es cero. Para la distribución normal las variables $X_i$ y $X_j$ son entonces condicionalmente independientes dado el resto de las variables. De eso trata el libro de Steffen, al que hice referencia en el comentario anterior. Independencia condicional y modelos gráficos. Tiene un tratamiento bastante completo de la distribución normal, pero puede que no sea tan fácil de seguir.

1 votos

Lo siento, estoy un poco confundido con respecto a la fórmula de Wikipedia para la correlación parcial; he visto varias implementaciones tomando ${\bf\color{red} -} \frac{p_{ij}}{ \sqrt{p_{ii} p_{jj}}}$ (con un signo menos). ¿Estás seguro de que la fórmula de Wikipedia es correcta?

2 votos

@Sh3ljohn, tienes toda la razón. Falta un signo menos en la fórmula de Wikipedia.

0 votos

¿No está hablando la primera respuesta realmente más sobre la información de Fisher que sobre la matriz de precisión? Quiero decir, coinciden en el caso Gaussiano realmente especial/bonito, pero no coinciden generalmente. Obviamente, los dos conceptos están relacionados (límite inferior de Cramer-Rao, distribución asintótica del MLE, etc.) pero no parece útil confundirlos (específicamente vine a esta pregunta buscando su pregunta sobre cómo distinguir la información de Fisher y la matriz de correlación inversa).

37voto

Franck Dernoncourt Puntos 2128

Me gusta este modelo gráfico probabilístico para ilustrar el punto de NRH de que la correlación parcial es cero si y solo si X es condicionalmente independiente de Y dado Z, con la suposición de que todas las variables involucradas son Gaussianas multivariadas (esta propiedad no se cumple en el caso general):

enter image description here

(los $y_i$ son variables aleatorias Gaussianas; ignora T y k)

Source: Charla de David MacKay sobre Conceptos Básicos de Procesos Gaussianos, minuto 25.

13voto

guillermooo Puntos 2711

La interpretación basada en correlaciones parciales es probablemente la más útil estadísticamente, ya que se aplica a todas las distribuciones multivariadas. En el caso especial de la distribución Normal multivariada, una correlación parcial cero corresponde a independencia condicional.

Puedes derivar esta interpretación utilizando el complemento de Schur para obtener una fórmula para las entradas de la matriz de concentración en términos de las entradas de la matriz de covarianza. Ver http://en.wikipedia.org/wiki/Schur_complement#Applications_to_probability_theory_and_statistics

11voto

Joel Puntos 145

La matriz de covarianza puede representar las relaciones entre todas las variables, mientras que la covarianza inversa muestra las relaciones de los elementos con sus vecinos (como Wikipedia dice, relaciones parciales/por pares).

Presto el siguiente ejemplo de aquí en el minuto 24:10. Imagina que 5 masas están conectadas entre sí y se balancean alrededor con 6 resortes. La matriz de covarianza contendría la correlación de todas las masas, si una va hacia la derecha, las otras también pueden ir hacia la derecha, pero la matriz de covarianza inversa muestra la relación de esas masas que están conectadas por los mismos resortes (vecinos) y contiene muchos ceros y no es necesariamente positiva.

1 votos

¿Dónde se explica esto en el video? Dura una hora. ¡Gracias!

0 votos

Tienes razón, está en 24:10, creo que ese es el mejor ejemplo para entender la naturaleza de la matriz de covarianza y su inversa

7voto

Trevor Alexander Puntos 170

Bar-Shalom y Fortmann (1988) mencionan la covarianza inversa en el contexto del filtrado de Kalman de la siguiente manera:

...existe una recursión para la covarianza inversa (o matriz de información)

$\mathbf{P}^{-1}(k+1|k+1) = \mathbf{P}^{-1}(k+1|k) + \mathbf{H}'(k+1) \mathbf{R}^{-1}(k+1)\mathbf{H}(k+1)$

...De hecho, se pueden desarrollar un conjunto completo de ecuaciones de predicción y actualización, conocidas como el filtro de información[8, 29, 142], para la covarianza inversa y un vector de estado transformado $\mathbf{P}^{-1}\hat{\mathbf{x}}$.

El libro está indexado en Google.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X