Considera la función $f:\mathbb{R}^n\to\mathbb{R}$ dada por $f(x)=\|\text{diag}(x)\|$, donde $\text{diag}(x)\in\mathbb{R}^{n\times{n}}$ es la matriz diagonal con entradas diagonales $x_1,x_2,\dots,x_n$, y $\|\cdot\|$ es la norma espectral (norma 2 de matrices).
Dado que la norma espectral de una matriz es su mayor valor singular, y los valores singulares de una matriz diagonal (cuadrada) son los valores absolutos de las entradas diagonales, vemos que $f(x)=\|x\|_\infty$, donde $\|\cdot\|_\infty$ es la sup-norma (vector). En esta forma, es más fácil deducir las propiedades de $f$--en particular, es diferenciable en cualquier punto $x\in\mathbb{R}^n$ donde el mayor elemento de $x$ (en valor absoluto) es único. En tal punto, el gradiente de $f$ está dado por $$ \nabla{f(x)}=\text{sgn}(x_k)e_k $$ donde $k$ es el índice de la entrada (única) más grande de $x$ (en valor absoluto), $e_k$ es el $k^\text{th}$ vector de la base estándar en $\mathbb{R}^n$, y $\text{sgn}(\cdot)$ es la función signo.
Quiero deducir la expresión anterior para el gradiente usando la regla de la cadena aplicada a $f(x)=(g\circ{h})(x)$, donde $g:\mathbb{R}^{n\times{n}}\to\mathbb{R}$ está dada por $g(A)=\|A\|$, y $h:\mathbb{R}^n\to\mathbb{R}^{n\times{n}}$ está dada por $h(x)=\text{diag}(x)$.
El "Jacobiano" de $h$ es un objeto tridimensional, donde $$ \frac{\partial[h(x)]_{ij}}{\partial{x_k}}=\begin{cases}1,&i=j=k,\\0,&\text{otro caso.}\end{cases} $$ La función $g$ es diferenciable en cualquier punto $A$ donde $A$ tiene un único mayor valor singular, en cuyo caso el gradiente(?) está dado por $$ \nabla{g(A)}=uv^\text{T}, $$ donde $u$ y $v$ son los vectores singulares izquierdo y derecho (respectivamente) correspondientes al (único) mayor valor singular de $A$.
Entonces básicamente tengo un objeto tridimensional y un objeto bidimensional, y quiero aplicar la regla de la cadena para obtener el gradiente, un objeto unidimensional (i.e. un vector). Una aplicación directa sugiere "multiplicarlos juntos" (no estoy seguro de que ese concepto esté siquiera definido), lo cual parece que produciría una matriz. ¿Qué simple cosa estoy pasando por alto aquí?