En este problema $f(x) = g(h(x))$ , donde $h(x) = ax + b$ . Voy a considerar el caso en el que $a$ es una matriz en lugar de un escalar, porque es útil y no es más difícil. Se puede suponer $a$ es un escalar si lo deseas.
Establezcamos algunas notaciones. Recordemos que si $F:\mathbb R^n \to \mathbb R^m$ es diferenciable en $x$ entonces $F'(x)$ es un $m \times n$ matriz. En el caso especial de que $m = 1$ , $F'(x)$ es un $1 \times n$ matriz. Voy a utilizar la convención de que $\nabla F(x) = F'(x)^T$ Así que $\nabla F(x)$ es un vector de columnas en lugar de un vector de filas. Entonces $G(x) = \nabla F(x)$ es una función de $\mathbb R^n \to \mathbb R^n$ y $\nabla^2 F(x) = G'(x)$ que es un $n \times n$ matriz.
La regla de la cadena nos dice que \begin{align} f'(x) &= g'(h(x))h'(x) \\ &= g'(ax + b) a. \end{align} De ello se desprende que \begin{align} \nabla f(x) &= a^T g'(ax+b)^T \\ &= a^T \nabla g(ax + b). \end{align} Esta es nuestra fórmula para $\nabla f(x)$ .
Preparando el uso de la regla de la cadena de nuevo, podemos expresar $\nabla f(x)$ como $\nabla f(x) = w(h(x))$ , donde $w(x) = a^T \nabla g(x)$ . Tenga en cuenta que $w'(x) = a^T \nabla^2 g(x)$ . Aplicando la regla de la cadena a $z(x) = \nabla f(x) = w(h(x))$ vemos que \begin{align} \nabla^2 f(x) &= w'(h(x))h'(x) \\ &= a^T \nabla^2 g(ax + b) a. \end{align} Esta es nuestra fórmula para $\nabla^2 f(x)$ .