14 votos

métrica en el espacio de Wasserstein de medidas gaussianas

Estoy leyendo el periódico " Geometría de Wasserstein de las medidas gaussianas " de Asuka Takatsu (la sección 3 me interesa) y tengo dificultades para entender cómo se utiliza la métrica.

En particular, me pregunto lo siguiente:

  • si tomo la raíz cuadrada de las matrices de covarianza de mis gaussianos, ¿el espacio se vuelve euclidiano? Creo que este debería ser el caso ya que la métrica $tr(XY)$ para $X$ y $Y$ dos matrices simétricas permiten recuperar que $\frac{d}{dt}\langle\dot\gamma,\dot\gamma\rangle=0$ si $\gamma^2$ es una geodésica en el espacio de las matrices de covarianza (si $\gamma^2(t)$ es una geodésica, se puede escribir $\gamma(t)=A+tT$ por lo que diferenciando por $T$ da el vector tangente que es independiente del tiempo).
    Sin embargo, si este espacio fuera euclidiano, ¿no significaría que una interpolación entre una matriz de covarianza $V$ y otra matriz de covarianza $U$ necesariamente estará dada por $C(t) = (V^{\frac{1}{2}} + t (U^{\frac{1}{2}}-V^{\frac{1}{2}}))^2$ ? No es así, ya que las geodésicas vienen dadas por $C(t) = (V^{\frac{1}{2}}+t(U^{\frac{1}{2}}(U^{\frac{1}{2}}VU^{\frac{1}{2}})^{-\frac{1}{2}}U^{\frac{1}{2}}V^{\frac{1}{2}} - V^{\frac{1}{2}}))^2$ (excepto en 1D, donde son equivalentes)
  • En qué espacio está la métrica $g_V(X,Y)=tr(XVY)$ ¿usado? Pensaba que era directamente en el espacio de las matrices de covarianza pero no parece que sea así. Por ejemplo $\frac{d}{dt}g(\dot\gamma,\dot\gamma)\neq0$ : si $\gamma$ es una geodésica en el espacio de las matrices de covarianza, entonces $\gamma(t) = (A+tT)^2$ y luego $\dot\gamma = TA+AT+2tTT$ y $\frac{d}{dt}g(\dot\gamma,\dot\gamma)\neq 0$

Gracias.

8voto

Dejemos que $\mathcal N_0^d$ sea el espacio de las matrices positivas definidas de tamaño $d$ . Además, deja que $\mathcal{G}=GL(d,\mathbb R)$ como en el papel. Tenemos la suryección natural $\Pi: \mathcal{G}\to \mathcal N_0^d$ definido por $\Pi(A)=A^TA$ . El grupo lineal general $\mathcal{G}$ tiene una métrica de Riemann $G$ como un submanifold abierto de $\mathbb R^{d\times d}$ es decir, el espacio tangente en cada punto de $\mathcal{G}$ se identifica con $\mathbb R^{d\times d}$ que lleva su métrica estándar. El autor quiere "impulsar" la métrica $G$ por $\Pi$ lo que significa poner una métrica $g$ sur $\mathcal N_0^d$ tal que $\Pi$ se convierte en Inmersión riemanniana . Por supuesto, las métricas no suelen avanzar. Los autores pretenden que esta cuestión no existe y escriben

Definimos una métrica riemanniana $g$ sur $\mathcal N_0^d$ por $$g_{\Pi}(d\Pi(Z),d\Pi(W))=G(Z_{\mathcal H},W_{\mathcal H}).$$

Realmente estamos definiendo la métrica en $\Pi(A)$ para algunos $A\in \mathcal{G}$ y como $\Pi$ no es una biyección, hay que explicar por qué la elección de $A$ no importa. En su lugar, $A$ simplemente se omite en la fórmula.

La razón por la que $\Pi$ es capaz de empujar $G$ hacia adelante se puede enunciar como: (1) el grupo ortogonal $O(d,\mathbb R)$ actúa sobre $\mathcal{G}$ por multiplicación por la izquierda; (2) esta acción es isométrica; (3) las fibras de $\Pi$ son órbitas bajo esta acción.

En la página siguiente hay una fórmula explícita (3.4) para $g$ . Tal vez sería más lógico introducir $g$ por (3.4) y luego comprobar que hace $\Pi$ una inmersión riemanniana. Lo que sea. Respecto a (3.4) es importante destacar (y el autor lo hace) que los vectores tangentes $X$ y $Y$ en (3.4) son no escrito en coordenadas del espacio ambiente $\mathbb R^{d\times d}$ . Por eso su cálculo en el segundo punto no dio el resultado correcto.

Analicemos el caso $d=1$ . Aquí $\mathcal N_0^1=(0,\infty)$ , cubierto por el mapa $x\to x^2$ que empuja la métrica euclidiana sobre $\mathcal G=\mathbb R\setminus \{0\}$ . El resultado es $\mathcal N_0^1 = ((0,\infty), \frac12 x^{-1/2}dx)$ . Aplicada sin cuidado, la fórmula (3.4) daría un resultado erróneo $g(dx,dx)=x\,dx^2$ en lugar de la correcta $g(dx,dx)=\frac{1}{4x}dx^2$ . Hay que transformar los vectores tangentes (multiplicándolos por $A^{-1}$ o algo así) antes de pegarlas en $\operatorname{Tr}(XVY)$ .

También ha mencionado el mapa de la raíz cuadrada $r: \mathcal N_0^d\to \mathcal G$ . Se trata de un inverso de la derecha de $\Pi$ en el sentido de que $\Pi\circ r=\operatorname{id}_{\mathcal N_0^d}$ . Sin embargo, $r$ es no una incrustación isométrica. La razón es que el rango de $r$ (que es el conjunto de todas las matrices definidas positivas) no es horizontal con respecto a $\Pi$ su espacio tangente no es el subespacio en el que $d\Pi$ es isométrico. He aquí una simple ilustración en dos dimensiones: $(x,y)\mapsto x$ es una inmersión riemanniana de $\mathbb R^2$ en $\mathbb R$ el mapa $x\mapsto (x,e^x)$ es su inverso derecho, pero no es una incrustación isométrica de $\mathbb R$ en $\mathbb R^2$ .

He aquí un cálculo explícito que confirma la afirmación del párrafo anterior. Sea $A=\begin{pmatrix}2 & 1 \\ 1 & 2 \end{pmatrix}$ . El espacio tangente de $\mathcal{G}$ en $A$ se descompone en el núcleo de $d\Pi$ que es el lapso de $B=\begin{pmatrix}1 & 2 \\ -2 & -1 \end{pmatrix}$ y su complemento ortogonal, en el que $d\Pi$ es isométrico. Como $B$ no es simétrica, su complemento ortogonal no coincide con el espacio de las matrices simétricas, es decir, con el espacio tangente al rango de $r$ .

[Añadido] Es tentador pensar que la métrica en $\mathcal{N}_0^d$ debe ser $g_V(X,Y)=\frac{1}{4}\operatorname{Tr}(XV^{-1}Y)$ , escrito sin ningún tipo de trucos de coordenadas: $X$ y $Y$ son vectores tangentes a $\mathcal{N}_0^d$ en $V$ , lo que significa que son matrices simétricas. Pero no parece que funcione así...

Intentaré seguir la idea de los cálculos del documento sin estar necesariamente de acuerdo con sus detalles. Arreglar $V\in \mathcal{N}_0^d$ y que $A=V^{1/2}\in \mathcal{G}$ . Dados dos vectores $X$ y $Y$ en $T_V \mathcal{G}$ (mi notación para el espacio tangente), queremos llevarlos a horizontal vectores en $T_A \mathcal{G}$ y tomar el producto interior allí.

  1. ¿Cuáles son las vertical vectores $Z$ en $T_A \mathcal{G}$ ? Satisfacen $(A+Z)^T (A+Z)=A^TA$ hasta el segundo orden, lo que significa que $AZ+Z^TA=0$ . Reescribiendo esto como $AZ+(AZ)^T=0$ vemos que $AZ$ es simétrica.
  2. ¿Cuáles son las horizontal vectores $W$ en $T_A \mathcal{G}$ ? Son ortogonales a los vectores verticales: $\operatorname{Tr}(Z^TW)=0$ . Escribiendo esto último como $\operatorname{Tr}((AZ)^T (A^{-1}W))=0$ concluimos que $A^{-1}W$ debe ser simétrica. Registrémoslo diciendo que $W=A\widehat W$ donde $\widehat W$ es simétrica.
  3. La imagen del vector horizontal $A=A\widehat W$ en $d\Pi_A$ es $AW+W^TA=A^2\widehat{W}+\widehat{W}A^2 = V\widehat{W}+\widehat{W}V$ . Se trata de una matriz simétrica, por supuesto.
  4. Dada una matriz simétrica $X$ queremos resolver $V\widehat{W}+\widehat{W}V=X$ para una matriz simétrica desconocida $\widehat{W}$ . Al no poder hacerlo explícitamente (?), nos resignamos a denotar la solución como $\widehat{W}_X$ . También tenemos $\widehat{W}_Y$ para nuestro otro vector tangente.
  5. Así que, $g_V(X,Y) = \operatorname{Tr} ((A\widehat{W}_X)^T(A\widehat{W}_Y)) = \operatorname{Tr}(\widehat{W}_X V \widehat{W}_Y)$ .

El resultado coincide con el del documento, salvo que la "transformación de coordenadas" se ha explicado. Me pregunto si $\widehat{W}_X$ puede escribirse razonablemente en términos de $X$ ...

0voto

Chevallier Puntos 86

cuando V es diagonal, la ecuación $V\hat{W}_X+\hat{W}_XV=X$ puede resolverse en la base canónica de las matrices simétricas. Como la métrica de Wasserstein es invariante por $RVR^t$ obtenemos la métrica para cualquier matriz V.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X