20 votos

¿Relación entre la descomposición de Cholesky y la inversión de matrices?

He estado revisando los Procesos Gaussianos y, por lo que puedo ver, hay cierto debate sobre si la "matriz de covarianza" (devuelta por el núcleo), que hay que invertir debe hacerse mediante inversión matricial (costosa y numéricamente inestable) o mediante Descomposición Cholesky .

Soy bastante novato en la descomposición de Cholesky y he llegado a entender que es similar a las raíces cuadradas de los escalares. Del mismo modo, la inversa de una matriz es similar a la división por un escalar (por ejemplo, cuando se multiplica $A * A^{-1} = I$ se devuelve la matriz identidad, que se parece a $5/5 = 1$ .)

Me cuesta establecer la conexión: ¿cuál es la relación entre la descomposición de Cholesky de una matriz de covarianza y la inversa de la matriz de covarianza? ¿Son necesarios pasos adicionales para cimentar la equivalencia de las soluciones?

34voto

user777 Puntos 10934

Los modelos de procesos gaussianos suelen implicar el cálculo de alguna forma cuadrática, como por ejemplo $$ y = x^\top\Sigma^{-1}x $$ donde $\Sigma$ es positiva definida, $x$ es un vector de dimensión adecuada, y deseamos calcular el escalar $y$ . Normalmente, no se desea calcular $\Sigma^{-1}$ directamente debido al coste o a la pérdida de precisión. Utilizando una definición del factor Cholesky $L$ sabemos $\Sigma=LL^\top$ . Porque $\Sigma$ es PD, las diagonales de $L$ también son positivos, lo que implica que $L$ es no singular. En esta exposición, $L$ es triangular inferior.

Podemos reescribir $$\begin{align} y &= x^\top(LL^\top)^{-1}x \\ &= x^\top L^{-\top}L^{-1}x \\ &= (L^{-1}x)^\top L^{-1}x \\ &= z^\top z \end{align} $$

La primera a segunda línea es una propiedad elemental de la inversa de una matriz. La segunda a tercera línea sólo reordena la transposición. La última línea la reescribe como una expresión de productos escalares vectoriales, lo que es conveniente porque sólo tenemos que calcular $z$ una vez.

Lo bueno de las matrices triangulares es que son muy sencillas de resolver, así que en realidad no tenemos que calcular nunca $L^{-1}x$ en su lugar, utilizamos la sustitución directa para $Lz=x$ que es muy barato en comparación con el cálculo directo de la inversa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X