2 votos

Calcular el gradiente de $f(x)=\|\text{diag}(x)\|$ con la regla de la cadena

Considera la función $f:\mathbb{R}^n\to\mathbb{R}$ dada por $f(x)=\|\text{diag}(x)\|$, donde $\text{diag}(x)\in\mathbb{R}^{n\times{n}}$ es la matriz diagonal con entradas diagonales $x_1,x_2,\dots,x_n$, y $\|\cdot\|$ es la norma espectral (norma 2 de matrices).

Dado que la norma espectral de una matriz es su mayor valor singular, y los valores singulares de una matriz diagonal (cuadrada) son los valores absolutos de las entradas diagonales, vemos que $f(x)=\|x\|_\infty$, donde $\|\cdot\|_\infty$ es la sup-norma (vector). En esta forma, es más fácil deducir las propiedades de $f$--en particular, es diferenciable en cualquier punto $x\in\mathbb{R}^n$ donde el mayor elemento de $x$ (en valor absoluto) es único. En tal punto, el gradiente de $f$ está dado por $$ \nabla{f(x)}=\text{sgn}(x_k)e_k $$ donde $k$ es el índice de la entrada (única) más grande de $x$ (en valor absoluto), $e_k$ es el $k^\text{th}$ vector de la base estándar en $\mathbb{R}^n$, y $\text{sgn}(\cdot)$ es la función signo.

Quiero deducir la expresión anterior para el gradiente usando la regla de la cadena aplicada a $f(x)=(g\circ{h})(x)$, donde $g:\mathbb{R}^{n\times{n}}\to\mathbb{R}$ está dada por $g(A)=\|A\|$, y $h:\mathbb{R}^n\to\mathbb{R}^{n\times{n}}$ está dada por $h(x)=\text{diag}(x)$.

El "Jacobiano" de $h$ es un objeto tridimensional, donde $$ \frac{\partial[h(x)]_{ij}}{\partial{x_k}}=\begin{cases}1,&i=j=k,\\0,&\text{otro caso.}\end{cases} $$ La función $g$ es diferenciable en cualquier punto $A$ donde $A$ tiene un único mayor valor singular, en cuyo caso el gradiente(?) está dado por $$ \nabla{g(A)}=uv^\text{T}, $$ donde $u$ y $v$ son los vectores singulares izquierdo y derecho (respectivamente) correspondientes al (único) mayor valor singular de $A$.

Entonces básicamente tengo un objeto tridimensional y un objeto bidimensional, y quiero aplicar la regla de la cadena para obtener el gradiente, un objeto unidimensional (i.e. un vector). Una aplicación directa sugiere "multiplicarlos juntos" (no estoy seguro de que ese concepto esté siquiera definido), lo cual parece que produciría una matriz. ¿Qué simple cosa estoy pasando por alto aquí?

2voto

John Hughes Puntos 27780

Una pista en lugar de una respuesta completa

Podría ser útil pensar en $\Bbb R^{n \times n}$ como $\Bbb R^{n^2}$.

Ahora $h$ es una función de $\Bbb R^n$ a $\Bbb R^{n^2}$ y $g$ es una función de $\Bbb R^{n^2}$ a $\Bbb R$, por lo que el compuesto va de $\Bbb R^n$ a $\Bbb R$. ¿Puedes averiguar la derivada parcial $k$-ésima de esto?

Cuando lo hagas, puede que descubras que el resultado que obtienes está sorprendentemente relacionado con la multiplicación de matrices (de algún tipo) de las derivadas de $h$ y $g$...o tal vez no.

Solo para empezar, $$\nabla g(A)_{ni + j} = u_i v_j,$$ donde estoy trabajando con índices que van de $0$ a $n-1$ aquí.

¿Puedes ahora calcular la entrada $ni + j$-ésima de la derivada parcial $k$-ésima de $g \circ h$?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X