4 votos

¿Cuál es la mejor manera de pensar en el Hessian?

Siempre he pensado en el Hessian así:

Dejemos que $f:\mathbb R^n \to \mathbb R$ sea suave. Sea $g:\mathbb R^n \to \mathbb R^n$ tal que $g(x) = \nabla f(x)$ . (Utilizo la convención de que $\nabla f(x)$ es un vector de columnas). Entonces el hessiano de $f$ en $x$ es, según mi definición, el $n \times n$ matriz $H(x) = g'(x)$ .

Sin embargo, con esta forma de ver el Hessian, no estoy pensando en $H(x)$ como una forma cuadrática. Me preocupa que haya un punto de vista de la "forma cuadrática" del hessiano que me esté perdiendo. Hay una regla general que he oído que cuando una matriz (como la hessiana) es automáticamente simétrica, entonces es más natural pensar en ella como una forma cuadrática. Me doy cuenta de que se puede definir una forma cuadrática en $x_0$ por $x \mapsto \langle x, H(x_0) x \rangle$ y que esta forma cuadrática aparece en la fórmula de Taylor. Pero sigo pensando que me falta algo, porque no veo por qué es fundamentalmente más natural pensar que el hessiano es una forma cuadrática.

¿Es cierto que hay un punto de vista de la forma cuadrática que me estoy perdiendo? Si es así, ¿cuál es? En términos más generales, ¿cuál crees que es la mejor manera de pensar en el hessiano?

5voto

Joppy Puntos 36

El hessiano puede tratarse como una derivada doble, del mismo modo que el gradiente o el jacobiano se tratan como una derivada simple. El problema es que en el cálculo multivariable, la primera derivada ya no es un escalar, sino un mapa lineal, mientras que la segunda derivada ya no es un escalar, sino un mapa bilineal . (Y así sucesivamente: la tercera derivada es un mapa multilineal que acepta tres argumentos).

Dejemos que $f : \mathbb{R}^n \to \mathbb{R}$ sea una función suave, entonces la primera derivada $Df : \mathbb{R}^n \to L(\mathbb{R}^n, \mathbb{R})$ es una función suave de $\mathbb{R}^n$ al conjunto $L(\mathbb{R}^n, \mathbb{R})$ de mapas lineales $\mathbb{R}^n \to \mathbb{R}$ . Esto puede parecer complicado al principio, pero en realidad se deduce directamente de la definición: fijar un punto $x \in \mathbb{R}^n$ la derivada debe satisfacer $$ f(x + \epsilon) = f(x) + ((Df)(x))(\epsilon) + o(\epsilon),$$ donde $o(-)$ es una función que va a cero lo suficientemente rápido (aquí, más rápido que la lineal).

La derivada $Df$ es una función suave por lo que podemos diferenciar de nuevo para obtener un mapa $D^2 f : \mathbb{R}^n \to L(\mathbb{R}^n, L(\mathbb{R}^n, \mathbb{R}))$ . El codominio $L(\mathbb{R}^n, L(\mathbb{R}^n, \mathbb{R}))$ es isomorfo al conjunto de bilineal mapas $\operatorname{Bil}(\mathbb{R}^n \times \mathbb{R}^n, \mathbb{R})$ . (Para ver esto, basta con pensar en el hecho de que una función que devuelve otra función puede ser también una función de dos argumentos - la versión "linealizada" es que un mapa lineal que devuelve un mapa lineal puede ser también un mapa multilineal de dos argumentos). Por lo tanto, después de fijar un punto $x \in \mathbb{R}^n$ la segunda derivada $(D^2 f)(x)$ es un mapa bilineal $\mathbb{R}^n \times \mathbb{R}^n \to \mathbb{R}$ que es el mismo tipo de objeto que el hessiano: escribimos $((D^2 f)(x))(v_1, v_2)$ en lugar de $v_1^T H v_2$ . Tenemos entonces una especie de fórmula de Taylor: $$ f(x + \epsilon) = f(x) + \frac{1}{1!} ((Df)(x))(\epsilon) + \frac{1}{2!} ((D^2 f)(x))(\epsilon, \epsilon) + o(\epsilon),$$ donde $o(-)$ va a cero más rápido que una cuadrática.

Yo diría que esta es la forma "correcta" de ver las derivadas superiores desde un punto de vista teórico (quizás no computacional), ya que se generaliza incluso a las funciones suaves $f : \mathbb{R}^n \to \mathbb{R}^m$ inmediatamente, y no requiere una elección de base o de coordenadas para ser definido. La razón por la que sólo $Df$ (el jacobiano) y $D^2 f$ (el hessiano) en un primer curso es que para escribir $D^n f$ en cualquier otro caso (o incluso $D^2 f$ en el $f: \mathbb{R}^n \to \mathbb{R}^m$ caso) requiere algo de álgebra multilineal / tensores / lo que sea, que normalmente no vale la pena introducir en un primer curso de cálculo vectorial.

En cuanto a lo que el operador $(D^2 f)(x)$ hace intuitivamente: modela la concavidad de una hipersuperficie en un punto. Las formas bilineales simétricas pueden ser diagonalizadas ortogonalmente, por lo que existe una base ortonormal $(v_1, \ldots, v_n)$ de $\mathbb{R}^n$ para que el signo de $((D^2 f)(x))(v_i, v_i)$ le indica si la curva trazada por $f(x + tv_i)$ es cóncavo hacia arriba o hacia abajo. Si el signo es cero, entonces hay que hacer más trabajo a-la prueba de la segunda derivada.

3voto

Laithy Puntos 23

Una forma de entender mejor el hessiano es pensar en él en el lenguaje de las curvas.

Fijar $p \in \mathbb{R}^n$ . Dejemos que $q:T_p\mathbb{R}^n \to \mathbb{R}$ sea la forma cuadrática definida por $q(v) = v^T H(p) v$ . $T_p\mathbb{R}^n$ es el espacio tangente de $\mathbb{R}^n$ en $p$ que no es más que el conjunto de todos los vectores que comienzan en $p$ . Es básicamente una copia de $\mathbb{R}^n$ pero con $p$ como origen, y es el espacio de todas las direcciones posibles que puedo tomar a partir de $p$ .

$q(v)$ en cierto sentido es la aceleración de la función $f$ en dirección a $v$ . Veamos cómo.

Fijar un vector $v\in T_p\mathbb{R}^n$ . Dejemos que $\gamma:(-1,1) \to \mathbb{R}^n$ sea cualquier curva que pase por $p$ con velocidad $v$ . Así que $\gamma(0) = p, \gamma'(0) = v$ .

Podemos ver la función $f$ restringido a la curva $\gamma$ y estudiar lo rápido que cambia a medida que pasamos por $p$ en la curva. Así que ahora estamos viendo la función de una sola variable $g := f \circ \gamma :(-1,1) \to \mathbb{R}$ .

Obsérvese que la velocidad de la función cambia a medida que pasamos por $p$ en la curva es

$$g'(0) = \nabla f \cdot v$$

y la aceleración de la función al pasar por $p$ en la curva es

$$g''(0) = q(v)$$

Ahora observe el hecho notable de que el lado derecho de ambas ecuaciones no depende de la curva $\gamma$ pero sólo depende de $p$ y $v$ . Por eso podemos llamar a $g'(0)$ la velocidad a la que $f$ cambia a medida que pasamos por $p$ en dirección a $v$ (sin ninguna mención a $\gamma$ ). Y del mismo modo, podemos llamar a $g''(0)$ la aceleración a la que $f$ cambia a medida que pasamos por $p$ en dirección a $v$ (también sin ninguna mención a $\gamma$ ).

2voto

J Swanson Puntos 610

Cuando trabajo en análisis, tiendo a trabajar en la parte que cubre los límites de las series de potencias (posiblemente multivariables, posiblemente formales), de las que se puede sacar bastante provecho en cuanto a la intuición. Como ejemplo básico, la independencia del orden de las derivadas parciales es obvia en este entorno. Así que pienso en el hessiano en esos términos primero, y en el resto como generalizaciones de este entorno. Esas generalizaciones son apropiadas para cuando se tiene menos estructura, pero no son la forma correcta de introducir la idea.

De todos modos, toma un polinomio multivariable $f(x_1, \ldots, x_n)$ . Podemos escribirlo como

$$f(x_1, \ldots, x_n) = f(0, \ldots, 0) + a_1 x_1 + \cdots + a_n x_n + \sum_{i,j=1}^n a_{i,j} x_i x_j + \cdots.$$

El bit constante es claro, y el bit lineal es sólo $\nabla f(0) \cdot (x_1, \ldots, x_n)$ . Desde $x_i x_j = x_j x_i$ Parece que está limpio para elegir $a_{i,j} = a_{j,i}$ . El término cuadrático es

$$\sum_{i,j=1}^n a_{i,j} x_i x_j = \mathbf{x}^T A \mathbf{x}$$

--oh, mira, ha salido una forma cuadrática simétrica. Elige los coeficientes con $a_{i,j} = f_{ij}(0)/2 = H_{i,j}/2$ así que $A = H/2$ y $$f(x_1, \ldots, x_n) = f(0) + \nabla f(0) \cdot \mathbf{x}^T + \frac{1}{2} \mathbf{x}^T H \mathbf{x} + \cdots$$

De este modo, el hessiano obviamente codifica la mejor aproximación cuadrática al comportamiento local de $f$ , después de tratar el comportamiento constante y lineal. Precise esto con el formalismo de su elección--Laithy ha proporcionado uno de ellos--y hornéelo hasta que esté dorado.

Conectando esto con su definición, observe que su definición del hessiano es básicamente la mejor aproximación lineal al comportamiento local de $\nabla f$ . Desde $\nabla f$ es la mejor aproximación lineal al comportamiento local de $f$ es al menos intuitivamente plausible que la mejor aproximación lineal de $\nabla f$ da la mejor aproximación cuadrática al comportamiento local de $f$ . Así que diría que a nivel intuitivo su definición se explica por mi enfoque.

0voto

Michael Waxman Puntos 540

Mi tutor tiene apuntes sobre el tema, espero que le sirva de ayuda Matemáticas para sistemas inteligentes

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X