1 votos

$\bar f(y) = f(Ty)$ cómo calcular el hessiano de $\bar f(y) $ ?

De la optimización convexa de Boyd y Vandenberghe: Dejemos $T \in \Bbb R^{n \times n}$ sea no singular. Sea $f: \Bbb R^n \rightarrow \Bbb R$ convexo y dos veces continuamente diferenciable. Definir $\bar f(y) = f(Ty)$ y $x=Ty$ . Entonces $\nabla \bar f(y) = T^T \nabla f(x)$ .

$T^T$ es la transposición de $T$

Mi proceso de cálculo es el siguiente: $\nabla \bar f(y) = (\bar f'(y))^T=(f'(x)*T)^T=T^T \nabla f(x)$ ya que el gradiente es la transposición de la derivada.

Pero no sé cómo lo hace $\nabla^2\bar f(y)=T^T\nabla^2 f(x)T$ vienen de.

0 votos

Deberías tener $T^T \nabla f(Ty)$ .

3voto

greg Puntos 156

Supongamos que se conoce el gradiente $(g)$ y Hessian $(H)$ de una función en términos de la variable $x$
$$\eqalign{ f = f(x),\,\,\,\,\, g = \frac{\partial f}{\partial x},\,\,\,\,\,\, H = \frac{\partial g}{\partial x} }$$ Entonces se le dice que $x$ no es independiente, sino que depende de otra variable $(x = Sy).\,\,$ Obsérvese que la matriz $S$ no necesita ser invertible. Incluso puede ser rectangular .

Busquemos el gradiente $(p)$ y Hessian $(Q)$ con respecto a esta nueva variable, por medio de diferenciales. $$\eqalign{ df &= g^Tdx = g^T(S\,dy) = (S^Tg)^Tdy = p^Tdy \cr p &= \frac{\partial f}{\partial y} = S^Tg \cr \cr dp &= S^T\,dg = S^T(H\,dx) = S^TH(S\,dy) = Q\,dy \cr Q &=\frac{\partial p}{\partial y} = S^THS \cr\cr }$$

0voto

Leon Katsnelson Puntos 274

Se produce porque a menudo representamos valores escalares $2$ -operadores lineales como en la forma $(u,v) \mapsto u^TAv$ para alguna matriz cuadrada.

Muy informalmente, elegir algunos $u$ y forman el operador de valor escalar $x \mapsto u^T T^T \nabla f(Tx)$ . Entonces (informalmente) tenemos $u^T T^T \nabla f(T(x+h))-u^T T^T \nabla f(Tx) = u^T T^T (\nabla f(Tx+Th) -\nabla f(Tx)) \approx u^TT^T \nabla^2f(Tx) Th$ .

Nótese que la matriz "A" aquí es $A=T^T \nabla^2f(Tx) T$ .

0voto

Ivo Terek Puntos 27665

Si $\bar{f}(y) = f(Ty)$ la regla de la cadena da $D\bar{f}(y)(v) = Df(Ty)(Tv)$ ya que $T$ al ser lineal significa que $DT(y) = T$ para todos $y$ . Ahora, los gradientes son los vectores correspondientes a estas derivadas totales (que son funcionales lineales) bajo el producto interior habitual en $\Bbb R^n$ . Así que $$ \nabla \bar{f}(y)^\top v = D\bar{f}(y)(v) = Df(Ty)(Tv) = \nabla f(Ty)^\top Tv = (T^\top \nabla f(Ty))^\top v$$ para todos $v \in \Bbb R^n$ debido a las propiedades generales $A^{\top \top} = A$ y $(AB)^\top = B^\top A^\top$ . Esto significa que $\nabla \bar{f}(y) = T^\top \nabla f(Ty)$ . Para los hessianos, volvemos a tomar las derivadas totales de ambos lados, para obtener $$D(\nabla \bar{f})(y) = T^\top \circ D(\nabla f)(Ty) \circ T$$ por la regla de la cadena, utilizando que $T^\top$ es a su vez lineal. Convirtiendo la expresión anterior (que está en el nivel de endomorfismo) al nivel matricial se obtiene $D^2\bar{f}(y) = T^\top D^2f(Ty)T$ como se quiera.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X