Gradiente
Desde g toma una entrada de x∈Rn , x=(x1,…,xn) g:Rn→Rg(x)=g(x1,...,xn) Y la derivada de g en este caso se suele llamar grad(g) y puede calcularse mediante derivadas parciales: grad(g(x)):Rn→R,grad(g(x))=(∂g(x)∂x1,…,∂g(x)∂xn) Así que grad(g(x))=grad(f(Ax+b))==(∂f(Ax+b)∂x1,…,∂f(Ax+b)∂xn)=★ Escribiré uno de estos términos: ∂f(Ax+b)∂xi(∗)=(∂f∂xi)(Ax+b)⋅∂(Ax+b)∂x1(∗∗)=(∗∗)=(∂f∂xi)(Ax+b)⋅[A1iA2i⋮Ami]
(Donde el icono del punto ( ⋅ ) significa multiplicar por términos y luego sumar).
(*) Esto tiene sentido, ya que (Ax+b) es un foro que contiene x1,...,xm y sólo hay que conectarlos al i derivada parcial de f .
(**) Se puede comprobar que esto es cierto, basta con tomar una matriz simple, como A=[2113] y cualquier b vector, como b=[12] y ver que f(Ax+b)=f(2x1+x2+1,x1+3x2+2) y de forma similar, por ejemplo ∂f∂x1(Ax+b)=∂f∂x1(2x1+x2+1,x1+3x2+2) .
★==((∂f∂x1)(Ax+b)⋅[A11A21⋮Am1],…,(∂f∂xn)(Ax+b)⋅[A1nA2n⋮Amn])==(∂f∂x1(Ax+b),…,∂f∂xn(Ax+b))⋅A
Matriz hessiana
La matriz hessiana es la matriz de segundas derivadas, en general, si f:Rn→R Entonces:
![Hessian matrix]()
Es necesario diferenciar el ( ★ ) vector de nuevo, ahora n veces más para cada término. Con lo que te he mostrado, esto no debería ser demasiado difícil.