Tengo curiosidad por la naturaleza de $\Sigma^{-1}$ . ¿Alguien puede decir algo intuitivo sobre "Qué hace $\Sigma^{-1}$ decir sobre los datos?"
Editar:
Gracias por las respuestas
Después de haber hecho algunos cursos estupendos, me gustaría añadir algunos puntos:
- Es una medida de información, es decir, $x^T\Sigma^{-1}x$ es la cantidad de información a lo largo de la dirección $x$ .
- La dualidad: Desde $\Sigma$ es positiva definida, por lo que también lo es $\Sigma^{-1}$ por lo que son normas punto-producto, más precisamente son normas duales entre sí, por lo que podemos derivar el dual de Fenchel para el problema de mínimos cuadrados regularizados, y hacer la maximización con el problema dual. Podemos elegir cualquiera de ellas, dependiendo de su condicionamiento.
- Espacio de Hilbert: Columnas (y filas) de $\Sigma^{-1}$ y $\Sigma$ abarcan el mismo espacio. Así que no hay ninguna ventaja (salvo cuando una de estas matrices está mal condicionada) entre la representación con $\Sigma^{-1}$ o $\Sigma$
- Estadística Bayesiana: norma de $\Sigma^{-1}$ juega un papel importante en la estadística bayesiana. Es decir, determina la cantidad de información que tenemos a priori, por ejemplo, cuando la covarianza de la densidad a priori es como $\|\Sigma^{-1}\|\rightarrow 0 $ tenemos no informativo (o probablemente Jeffreys anterior)
- Estadística frecuencial: Está estrechamente relacionado con la información de Fisher, utilizando el límite de Cramér-Rao. De hecho, la matriz de información de Fisher (producto exterior del gradiente de la log-verosimilitud con ella misma) es el límite de Cramér-Rao, es decir $\Sigma^{-1}\preceq \mathcal{F}$ (con el cono semidefinido positivo, es decir, con los elipsoides de concentración). Por tanto, cuando $\Sigma^{-1}=\mathcal{F}$ el estimador de máxima verosimilitud es eficiente, es decir, existe la máxima información en los datos, por lo que el régimen frecuentista es óptimo. En palabras más sencillas, para algunas funciones de verosimilitud (nótese que la forma funcional de la verosimilitud depende puramente del modelo probabilístico que supuestamente generó los datos, también conocido como modelo generativo), la máxima verosimilitud es un estimador eficiente y consistente, gobierna como un jefe. (perdón por exagerar)