Processing math: 100%

3 votos

Gradiente de g(x)=f(Ax+b)

Necesito el gradiente y el hessiano de la función g(x)=f(Ax+b) .

f:RmR ,

xRn ,

bRm ,

ARmxn

No encuentro la expresión de la derivada: g(x)=f(Ax+b)(Ax+b)

Creo que el derivado f(Ax+b) es simplemente A*derivadas parciales. Pero no sé cómo proceder con los otros términos.

Conozco las expresiones para el gradiente y la arpillera, pero nunca lo he visto en forma de matriz.

2voto

Daniel P Puntos 359

Gradiente

Desde g toma una entrada de xRn , x=(x1,,xn) g:RnRg(x)=g(x1,...,xn) Y la derivada de g en este caso se suele llamar grad(g) y puede calcularse mediante derivadas parciales: grad(g(x)):RnR,grad(g(x))=(g(x)x1,,g(x)xn) Así que grad(g(x))=grad(f(Ax+b))==(f(Ax+b)x1,,f(Ax+b)xn)= Escribiré uno de estos términos: f(Ax+b)xi()=(fxi)(Ax+b)(Ax+b)x1()=()=(fxi)(Ax+b)[A1iA2iAmi]

(Donde el icono del punto ( ) significa multiplicar por términos y luego sumar).

(*) Esto tiene sentido, ya que (Ax+b) es un foro que contiene x1,...,xm y sólo hay que conectarlos al i derivada parcial de f .

(**) Se puede comprobar que esto es cierto, basta con tomar una matriz simple, como A=[2113] y cualquier b vector, como b=[12] y ver que f(Ax+b)=f(2x1+x2+1,x1+3x2+2) y de forma similar, por ejemplo fx1(Ax+b)=fx1(2x1+x2+1,x1+3x2+2) .

==((fx1)(Ax+b)[A11A21Am1],,(fxn)(Ax+b)[A1nA2nAmn])==(fx1(Ax+b),,fxn(Ax+b))A

Matriz hessiana

La matriz hessiana es la matriz de segundas derivadas, en general, si f:RnR Entonces:

Hessian matrix

Es necesario diferenciar el ( ) vector de nuevo, ahora n veces más para cada término. Con lo que te he mostrado, esto no debería ser demasiado difícil.

2voto

FakeAnalyst56 Puntos 15

En primer lugar, observe que si podemos escribir g(x+Δx)=g(x)+[h(x)]T(Δx)+o(Δx) , donde o(Δx) satisface limΔx0o(Δx)Δx=0 entonces g(x)=h(x) . Bien utilizando la diferenciabilidad de f , g(x+Δx)=f(Ax+b+AΔx)=f(Ax+b)+[f(Ax+b)]T(AΔx)+o(AΔx)=g(x)+[ATf(Ax+b)]T(Δx)+o(AΔx), donde o(AΔx) satisface limAΔx0o(AΔx)AΔx=0. Entonces limΔx0o(AΔx)Δx=0 . Por lo tanto, g(x)=ATf(Ax+b) .

Para la segunda derivada, utilice el hecho de que f satisface f(x+Δx)=f(x)+f(x)T(Δx)+12(Δx)T2f(Ax+b)(Δx)+o[(Δx)2], donde o[(Δx)2] significa limΔx0o[(Δx)2]Δx2=0 . Bueno, tenemos g(x+Δx)=f(Ax+b+AΔx)=f(Ax+b)+[f(Ax+b)]T(AΔx)+12(AΔx)T2f(Ax+b)(AΔx)+o[(AΔx)2]=g(x)+[ATf(Ax+b)]T(Δx)+12(Δx)T[AT2f(Ax+b)A](Δx)+o[(AΔx)2]=g(x)+[g(x)]T(Δx)+12(Δx)T[AT2f(Ax+b)A](Δx)+o[(AΔx)2]. Ahora, asumiendo A0 , limΔx0o[(AΔx)2]Δx2=limΔx0o[(AΔx)2]AΔx2=0. Por la unicidad de las expansiones de Taylor, tenemos 2g(x)=AT2f(Ax+b)A .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X