71 votos

¿Qué dice la inversa de la matriz de covarianza sobre los datos? (Intuitivamente)

Tengo curiosidad por la naturaleza de $\Sigma^{-1}$ . ¿Alguien puede decir algo intuitivo sobre "Qué hace $\Sigma^{-1}$ decir sobre los datos?"

Editar:

Gracias por las respuestas

Después de haber hecho algunos cursos estupendos, me gustaría añadir algunos puntos:

  1. Es una medida de información, es decir, $x^T\Sigma^{-1}x$ es la cantidad de información a lo largo de la dirección $x$ .
  2. La dualidad: Desde $\Sigma$ es positiva definida, por lo que también lo es $\Sigma^{-1}$ por lo que son normas punto-producto, más precisamente son normas duales entre sí, por lo que podemos derivar el dual de Fenchel para el problema de mínimos cuadrados regularizados, y hacer la maximización con el problema dual. Podemos elegir cualquiera de ellas, dependiendo de su condicionamiento.
  3. Espacio de Hilbert: Columnas (y filas) de $\Sigma^{-1}$ y $\Sigma$ abarcan el mismo espacio. Así que no hay ninguna ventaja (salvo cuando una de estas matrices está mal condicionada) entre la representación con $\Sigma^{-1}$ o $\Sigma$
  4. Estadística Bayesiana: norma de $\Sigma^{-1}$ juega un papel importante en la estadística bayesiana. Es decir, determina la cantidad de información que tenemos a priori, por ejemplo, cuando la covarianza de la densidad a priori es como $\|\Sigma^{-1}\|\rightarrow 0 $ tenemos no informativo (o probablemente Jeffreys anterior)
  5. Estadística frecuencial: Está estrechamente relacionado con la información de Fisher, utilizando el límite de Cramér-Rao. De hecho, la matriz de información de Fisher (producto exterior del gradiente de la log-verosimilitud con ella misma) es el límite de Cramér-Rao, es decir $\Sigma^{-1}\preceq \mathcal{F}$ (con el cono semidefinido positivo, es decir, con los elipsoides de concentración). Por tanto, cuando $\Sigma^{-1}=\mathcal{F}$ el estimador de máxima verosimilitud es eficiente, es decir, existe la máxima información en los datos, por lo que el régimen frecuentista es óptimo. En palabras más sencillas, para algunas funciones de verosimilitud (nótese que la forma funcional de la verosimilitud depende puramente del modelo probabilístico que supuestamente generó los datos, también conocido como modelo generativo), la máxima verosimilitud es un estimador eficiente y consistente, gobierna como un jefe. (perdón por exagerar)

25voto

Vaindil Puntos 131

Es una medida de precisión al igual que $\Sigma$ es una medida de dispersión.

De forma más elaborada, $\Sigma$ es una medida de la dispersión de las variables en torno a la media (los elementos diagonales) y de su coevolución con otras variables (los elementos no diagonales). Cuanto mayor sea la dispersión, más alejadas estarán de la media, y cuanto más covariarán (en valor absoluto) con las demás variables, más fuerte será la tendencia a que "se muevan juntas" (en la misma dirección o en la opuesta, según el signo de la covarianza).

De la misma manera, $\Sigma^{-1}$ es una medida del grado de concentración de las variables en torno a la media (los elementos diagonales) y del grado en que no covarían con las demás variables (los elementos no diagonales). Por lo tanto, cuanto más alto sea el elemento diagonal, más agrupada estará la variable en torno a la media. La interpretación de los elementos no diagonales es más sutil y le remito a las otras respuestas para que la interprete.

24voto

Calvin Puntos 111

Utilizando superíndices para denotar los elementos de la inversa, $1/\sigma^{ii}$ es la varianza del componente de la variable $i$ que no está correlacionado con el $p-1$ otras variables, y $-\sigma^{ij}/\sqrt{\sigma^{ii}\sigma^{jj}}$ es la correlación parcial de las variables $i$ y $j$ controlando el $p-2$ otras variables.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X