13 votos

¿Por qué funciona el Hessian?

Estoy trabajando a través de Susskind "El Mínimo Teórico' (en la física) – también incluye algunos de matemáticas. En particular, hay un interludio para que él habla de diferenciación parcial. Él habla de una superficie, una función de dos variables.

Deje $A=f(x,y)$

\begin{pmatrix} \frac{\partial^2A}{\partial x^2} & \frac{\partial^2A}{\partial x \partial y} \\ \frac{\partial^2A}{\partial y \partial x} & \frac{\partial^2A}{\partial y^2} \end{pmatrix}

Entiendo que individualmente lo que las derivadas parciales están haciendo (aunque no la segunda y tercera entradas en la matriz equivalente?). También puedo aceptar que pueden ser organizadas en una matriz.

Sin embargo, él dice:

Si el determinante y la traza son positivos, el punto es un mínimo local.

Si el determinante es positivo y el seguimiento negativo, el punto es un máximo local.

Si el determinante es negativo, el punto es un punto de silla.

Estoy seguro de que podría aplicar estas reglas, pero ¿por qué estas reglas de trabajo?

30voto

seanyboy Puntos 3170

Por alguna razón, el sentido geométrico de la Arpillera es rara vez se hizo explícita. Si $f\colon \mathbb{R}^n\to\mathbb{R}$ $C^2$ función en una vecindad de un punto de $p$, la matriz Hessiana $Hf_p$ es la matriz de la forma cuadrática que es la segunda derivada direccional de $f$$p$. Lo que esto significa es que, si $\textbf{v}$ $n$- dimensiones del vector, a continuación, $\textbf{v}^T(Hf_p)\textbf{v}$ es la segunda derivada direccional de $f$$p$, es decir, $$ \textbf{v}^T(Hf_p)\textbf{v} \;=\; \frac{d^2}{dt^2}\bigl[f(p+t\textbf{v})\bigr]\biggr|_{t=0} $$ Esta ecuación puede ser derivada con bastante facilidad utilizando la multivariable regla de la cadena.

Para un punto crítico de la $p$, a la dirección de las segundas derivadas generalmente de determinar si $p$ es un mínimo local, un máximo local o un punto de silla. En particular:

  • Si la dirección de la segunda derivada es positiva en todas las direcciones, a continuación, $p$ es un mínimo local.

  • Si la dirección de la segunda derivada es negativa en todas las direcciones, a continuación, $p$ es un máximo local.

  • Si la dirección de la segunda derivada es positiva en algunas direcciones y negativos en otras direcciones, a continuación, $p$ es un punto de silla.

Estas afirmaciones se derivan de la costumbre de la segunda derivada de la prueba en una sola variable de cálculo, donde la única variable de las funciones en cuestión son de la sección transversal de las funciones de $t\mapsto f(p+t\textbf{v})$.

Todo esto se refiere a ciertos hechos acerca de las matrices simétricas de álgebra lineal:

  • Una matriz simétrica $A$ tiene la propiedad de que $\textbf{v}^TA\textbf{v} > 0$ para todos los vectores distintos de cero $\textbf{v}$ si y sólo si $A$ tiene todos los autovalores positivos. (Por ejemplo, una matriz se llama positiva definida.)

  • Una matriz simétrica $A$ tiene la propiedad de que $\textbf{v}^TA\textbf{v} < 0$ para todos los vectores distintos de cero $\textbf{v}$ si y sólo si $A$ tiene todos los autovalores negativos. (Por ejemplo, una matriz se llama negativo definitivo.)

  • Una matriz simétrica $A$ satisface $\textbf{v}^TA\textbf{v} > 0$ para algunos vectores y $\textbf{v}^TA\textbf{v} < 0$ para los otros vectores si y sólo si tiene al menos un autovalor positivo y al menos un autovalor negativo.

La aplicación de estos hechos a la de Hess da:

  • Si $p$ es un punto crítico para la $f$ $Hf_p$ es positiva definida, a continuación, $p$ es un mínimo local para $f$.

  • Si $p$ es un punto crítico para la $f$ $Hf_p$ es negativa definida, a continuación, $p$ es un máximo local para $f$.

  • Si $p$ es un punto crítico para la $f$ $Hf_p$ tiene al menos un autovalor positivo y al menos un autovalor negativo, a continuación, $p$ es un punto de silla para $f$.

Para un $2\times 2$ de la matriz, se puede determinar los signos de los valores propios de la investigación de la traza y el determinante. Esto es debido a que la traza de una matriz es la suma de sus valores propios, y el determinante de una matriz es el producto de sus valores propios. En particular:

  • Un $2\times 2$ matriz tiene dos autovalores positivos si y sólo si la traza y el determinante tanto positivos

  • Un $2\times 2$ matriz tiene dos autovalores negativos si y sólo si la traza es negativo y el determinante es positivo.

  • Un $2\times 2$ matriz tiene uno positivo y uno negativo autovalor si y sólo si el determinante es negativo.

Tenga en cuenta que estas afirmaciones no se sostienen por $3\times 3$ o más matrices. Por ejemplo, $3\times 3$ matriz de autovalores $-2,-1,10$ tendrá positivo de seguimiento ($7$) y positivo determinante ($20$). Para dicha matriz, usted realmente tiene que determinar los autovalores de forma explícita, o usar algo como Sylvester criterio para determinar si la Hessiana es definida positiva, negativa definitivo, o ninguno de los dos.

1voto

littleO Puntos 12894

Creo que sería más claro si describió los tres casos como: 1) el Hessian es positivo definida; 2) el Hessian es negativa definida; 3) el Hessian tiene un valor propio positivo y un valor propio negativo.

La idea clave aquí es que la aproximación de Taylor a $f$ $(x,y)$ de segundo orden nos dice comportamiento cerca de $f$ $(x,y)$. Cuando $\nabla f(x,y) = 0$, el término del Hessian en la aproximación de Taylor nos dice cómo $f$ se comporta cerca de $(x,y)$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X