Processing math: 1%

10 votos

Segunda derivada direccional y matriz hessiana

Estoy leyendo lo siguiente del libro Aprendizaje profundo y tengo las siguientes preguntas.

enter image description here

  1. No entiendo muy bien las segundas derivadas direccionales. La primera derivada direccional de una función f:RmR en la dirección u representa la pendiente de f en la dirección u . Entonces, ¿qué hace la segunda derivada direccional a lo largo de la dirección u ¿Representar?
  2. En el párrafo anterior, entendí que d^THd la segunda derivada direccional de f en la dirección d ( ||d||_2=1 ), viene dado por el correspondiente valor propio cuando d es un vector propio de H porque si d es un vector propio de H entonces d^THd=d^T\lambda_d d=\lambda_d d^Td=\lambda_d . Sin embargo, no entiendo la afirmación "Para otras direcciones de d la segunda derivada direccional es una media ponderada de todos los valores propios, con pesos entre 0 y 1 "::-Desde H es simétrico real, H tiene m vectores propios independientes y ortogonales, que forman una base para \mathbb{R}^m . Por lo tanto, si d no es un vector propio, entonces d=c_1x_1+\cdots +c_mx_m para algunos escalares c_i s y vectores propios x_i s. Así, d^THd=d^TH(c_1x_1+\cdots +c_mx_m)\\=d^T(c_1\lambda_1x_1+\cdots +c_m\lambda_mx_m)\\=c_1^2||x_1||^2\lambda_1 +\cdots +c_m^2||x_m||^2\lambda_m que es, por supuesto, la media ponderada de todos los valores propios de H . Pero no entiendo por qué los pesos se encuentran entre 0 y 1 como se ha dado. De hecho, no hay ninguna razón para creer que los pesos c_i^2||x_i||^2 para estar en el rango (0,1) .
  3. Además, no entiendo la afirmación "El valor propio máximo determina la segunda derivada máxima, y el valor propio mínimo determina la segunda derivada mínima". ¿Puede explicar esto?

5voto

Hengrong Du Puntos 541
  1. Por cálculo directo: Primera derivada direccional de f:\mathbf{R}^m\rightarrow \mathbf{R} en dirección a u en x viene dada por \begin{equation} \partial_u f(x):=\lim_{t\rightarrow 0}\frac{f(x+tu)-f(x)}{t}=\nabla f(x) \cdot u = \sum_{i=1}^{m} u_i\partial_{x_i}f(x). \label{} \end{equation} La segunda derivada direccional a lo largo de la dirección u se da en la forma similar: \begin{align*} \partial^2_{uu}f(x)&=\partial_u(\partial_u f)\\ &=\lim_{t\rightarrow 0}\frac{\partial_u f(x+tu)-\partial_u f(x)}{t}\\ &=\lim_{t\rightarrow 0}\frac{\nabla f(x+tu)\cdot u-\nabla f(x)\cdot u}{t}\\ &=\lim_{t\rightarrow 0}\frac{u_i \partial_{x_i}f(x+tu)-u_i \partial_{x_i}f(x)}{t}\\ &=u_i \partial_{x_i x_j} f(x)u_j\\ &=u^THu \label{} \end{align*} donde H=D^2 f(x) es la matriz hessiana de f en x .

    1. d es un medio de dirección \|d\|=1 , aquí la norma la norma habitual en \mathbb{R}^n es decir, \|d\|=\sqrt{d_1^2+\cdots+d_n^2} . por lo tanto, si d=\sum_{i=1}^{n}\lambda_i e_i , donde \left\{ e_i \right\} es una O.N.B. dada por los vectores propios de H , entonces por el teorema de Pitágoras, \begin{equation} 1=\left\|d\right\|^2=\sum_{i=1}^{n}\lambda_i^2 \label{} \end{equation} de lo que podemos concluir que \lambda_i^2 están entre 0 y 1 .

3.Para cualquier dirección d , a partir de 1 sabemos que \begin{equation} \partial_{dd}^2 f(x)=d^T H d \label{} \end{equation} Escriba d=\sum_{i=1}^{m}c_i e_i entonces tenemos \begin{align*} d^THd&=\left( \sum_{i=1}^{m}c_i e_i \right)^T H\left( \sum_{i=1}^{m}c_i e_i \right)\\ &=\left( \sum_{i=1}^{m}c_i e_i \right)^{T}\left( \sum_{i=1}^{m} c_i\lambda_i e_i\right)\\ &=\sum_{i=1}^{n}c_i^2 \lambda_i \leq \lambda_{\max}\sum_{i=1}^{m}c_i^2\\ &=\lambda_{\max} \end{align*} donde volvemos a utilizar el teorema de Pitágoras para \sum_{i=1}^{m}c_i^2=1 .

Por otro lado, si establecemos e_1 sea el vector propio asociado a \lambda_{\max} entonces tenemos \begin{equation} \partial_{e_1 e_1f(x)}=e_1^T He_1=x_1^T \lambda_{\max} e_1=\lambda_{\max} \label{} \end{equation} En conclusión, \begin{equation} \partial_{dd}f(x)\leq \lambda_{\max}=\partial_{e_1 e_1}f(x) \label{<++>} \end{equation}

1 votos

Tengo dificultades para seguir tu notación, especialmente después de "La segunda derivada direccional a lo largo de la dirección u está dada de forma similar:". ¿Podría aclararlo?

0 votos

Por ejemplo, ¿es u_i \partial_{x_i}f(x+tu) lo mismo que \sum_i u_i \partial_{x_i}f(x+tu) ?

1voto

Doug M Puntos 111

La derivada direccional \nabla_uf = \nabla f \frac {u}{\|u\|} es la magnitud del cambio en f para un cambio en la dirección de u. La segunda derivada es el cambio en la magnitud de la primera derivada direccional.

Si d no está en la dirección de uno de los valores propios, todavía podemos escribir d = c_1v_1 + c_2v_2 \cdots c_nv_n y d^TXd = c_1\lambda_1 + \cdots +c_n\lambda_n

Desde d está "unificado", el mayor c_1\lambda_1 + \cdots +c_n\lambda_n podría ocurrir si toda la carga recayera sobre el mayor \lambda_k. (y el más pequeño es si todo se carga en el más pequeño \lambda_k )

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X