161 votos

¿Por qué el gradiente es la dirección de mayor ascenso?

$$f(x_1,x_2,...x_n):R^n \rightarrow R$$ La definición del gradiente es $$ \frac { \partial f}{ \partial x_1}e_1 +\ ... + \frac { \partial f}{ \partial x_n}e_n$$

que es un vector.

La lectura de esta definición me hace considerar que cada componente del gradiente corresponde a la tasa de cambio con respecto a mi función objetiva si sigo la dirección $e_i$ .

Pero no puedo ver por qué este vector (definido por la definición de gradiente) tiene algo que ver con el descenso más pronunciado.

¿Por qué obtengo el máximo valor de ganancia si me muevo en la dirección del gradiente?

146voto

Cada componente del gradiente indica la rapidez con la que cambia la función con respecto a la base estándar. Entonces, no es descabellado preguntarse a qué velocidad puede cambiar la función con respecto a alguna dirección arbitraria. Dejando que $\vec v$ denota un vector unitario, podemos proyectar a lo largo de esta dirección de forma natural, es decir, a través del producto punto $\text{grad}( f(a))\cdot \vec v$ . Esta es una definición bastante común de la derivada direccional.

Podemos preguntarnos entonces en qué dirección es máxima esta cantidad. Recordarás que $$\text{grad}( f(a))\cdot \vec v = |\text{grad}( f(a))|| \vec v|\text{cos}(\theta)$$

Desde $\vec v$ es la unidad, tenemos $|\text{grad}( f)|\text{cos}(\theta)$ que es máxima cuando $\cos(\theta)=1$ en particular cuando $\vec v$ apunta en la misma dirección que $\text{grad}(f(a))$ .

16 votos

Me preguntaba, pero ¿cómo a usted que grad(f(a)) da el cambio más pronunciado? ¿Cómo sabes que no hay otro vector que moviéndose en su dirección podría conducir a un cambio más pronunciado?

37 votos

¿entonces multiplicamos el gradiente por un vector arbitrario y luego decimos que el producto es máximo cuando el vector apunta en la misma dirección que el gradiente? ¿Cómo responde eso a la pregunta?

7 votos

@novice Responde a la pregunta ya que el producto escalar ES IGUAL a la tasa de cambio de $f$ a lo largo de la dirección del vector unitario. Así, al maximizar el producto, la tasa de incremento de $f$ también se maximiza.

62voto

MGA Puntos 4058

Otras respuestas son correctas al utilizar la derivada direccional para mostrar que el gradiente es la dirección de mayor ascenso/descenso. Sin embargo, creo que es instructivo mirar la definición de la derivada direccional desde los primeros principios para entender por qué esto es así (no es arbitrariamente definido como el producto punto del gradiente y el vector direccional).

Dejemos que $f(\mathbf{x}):\mathbb{R}^n \rightarrow \mathbb{R}$ . Las derivadas parciales de $f$ son las tasas de cambio a lo largo de los vectores base de $\mathbf{x}$ :

$\textrm{rate of change along }\mathbf{e}_i = \lim_{h\rightarrow 0} \frac{f(\mathbf{x} + h\mathbf{e}_i)- f(\mathbf{x})}{h} = \frac{\partial f}{\partial x_i}$

Cada derivada parcial es una escalar . Es simplemente una tasa de cambio.

El gradiente de $f$ se define entonces como el vector :

$\nabla f = \sum_{i} \frac{\partial f}{\partial x_i} \mathbf{e}_i$

Podemos extender naturalmente el concepto de tasa de cambio a lo largo de un vector base a un vector (unitario) que apunta en una dirección arbitraria. Sea $\mathbf{v}$ sea un vector de este tipo, es decir $\mathbf{v} = \sum_{i} \alpha_i \mathbf{e}_i$ donde $\sum_{i} \alpha_i^2 = 1$ . Entonces:

$\textrm{rate of change along }\mathbf{v} = \lim_{h\rightarrow 0} \frac{f(\mathbf{x} + h\mathbf{v}) - f(\mathbf{x})}{h}$

De nuevo, esta cantidad es un escalar.

Ahora, se puede demostrar que si $f$ es diferenciable en $\mathbf{x}$ el límite anterior se evalúa en: $(\nabla f) \cdot \mathbf{v}$ . Se trata de un producto punto de dos vectores, que devuelve un escalar.

Sabemos por el álgebra lineal que el producto punto es máximo cuando los dos vectores apuntan en la misma dirección. Esto significa que la tasa de cambio a lo largo de un vector arbitrario $\mathbf{v}$ se maximiza cuando $\mathbf{v}$ apunta en la misma dirección que el gradiente. En otras palabras, el gradiente corresponde a la tasa de ascenso/descenso más pronunciada.

0 votos

¿Te falta una raíz cuadrada alrededor de $\sum_i \alpha_i^2$ ? Tal como lo entiendo, lo que está tratando de decir es que la magnitud de $v$ debería ser 1, lo que sólo ocurre si la raíz cuadrada de la suma de las alfas al cuadrado es 1 (podría fácilmente estar completamente equivocado, mis disculpas si es así). De todas formas me gusta tu explicación en general.

3 votos

@jeremyradcliff Sí exactamente, digo que la magnitud debería ser 1. He omitido la raíz cuadrada precisamente porque $1^2 =1$ .

1 votos

Me gusta mucho esta respuesta, y mi intuición también era que el gradiente apunta en la dirección del mayor cambio. Pero eso no es lo mismo que el ascenso. Por ejemplo, en el algoritmo de descenso del gradiente siempre se utiliza el gradiente negativo, lo que sugiere el ascenso pero no el descenso. ¿Puedes explicar por qué el gradiente siempre apunta al mayor ascenso?

37voto

George Puntos 11

Consideremos una expansión de Taylor de esta función, $$f({\bf r}+{\bf\delta r})=f({\bf r})+(\nabla f)\cdot{\bf\delta r}+\ldots$$ El término de corrección lineal $(\nabla f)\cdot{\bf\delta r}$ se maximiza cuando ${\bf\delta r}$ está en la dirección de $\nabla f$ .

4 votos

Hola, lo siento, pero ¿podría aclarar por qué maximizar el término lineal equivale a encontrar la dirección del mayor incremento? ¿Es un argumento informal, en la línea de "el término lineal de la serie de Taylor es el más dominante, por lo que si queremos maximizar $f(r+\delta r),$ debemos maximizar el término lineal"? Gracias

29voto

BobaFret Puntos 607

La pregunta que haces se puede reformular como "En qué dirección está la derivada direccional $\nabla_{\hat{u}}f$ un máximo?".

Asumiendo la diferenciabilidad, $\nabla_{\hat{u}}f$ se puede escribir como:

$$\nabla_{\hat{u}}f = \nabla f(\textbf{x}) \cdot \hat{u} =|\nabla f(\textbf{x})||\hat{u}|\cos \theta = |\nabla f(\textbf{x})|\cos \theta$$

que es un máximo cuando $\theta =0$ : cuando $\nabla f(\textbf{x})$ y $\hat{u}$ son paralelos.

9voto

Keith Puntos 5138

Cada componente de la derivada $$ \frac{\partial f}{\partial x_1}\ ... \frac{\partial f}{\partial x_n}$$ le indica la velocidad de cambio de su función con respecto a la base estándar.
Ahora es posible hacer una transformación de base a una base ortogonal con $ n-1 $ base Direcciones con $0$ ascenso y la dirección de la pendiente. En una base de este tipo, la dirección del gradiente debe ser la más empinada, ya que cualquier adición de otras direcciones de la base añade longitud pero no ascenso.

Para un espacio vectorial tridimensional, la base podría tener el siguiente aspecto $$ \left( \left( \begin{matrix} \partial x_2 \\ -\partial x_1 \\ 0 \end{matrix} \right) \left( \begin{matrix} \partial x_1 \\ \partial x_2 \\ -\dfrac{(\partial x_1)²+(\partial x_2)²}{\partial x_3} \end{matrix} \right) \left( \begin{matrix} \partial x_1 \\ \partial x_2 \\ \partial x_3 \end{matrix} \right) \right) $$ Por inducción completa se puede demostrar ahora que tal base es construible para un espacio vectorial n-dimensional. $$ \left( \left( \begin{matrix} \partial x_2 \\ -\partial x_1 \\ 0 \\ 0 \end{matrix} \right) \left( \begin{matrix} \color{blue}{\partial x_1 \\ \partial x_2} \\ -\dfrac{(\partial x_1)²+(\partial x_2)²}{\partial x_3} \\ 0 \end{matrix} \right) \left( \begin{matrix} \color{blue}{\partial x_1 \\ \partial x_2} \\ \color{green}{\partial x_3} \\ -\dfrac{(\partial x_1)²+(\partial x_2)²+(\partial x_3)²}{\partial x_4} \end{matrix} \right) \left(\begin{matrix} \color{blue}{\partial x_1 \\ \partial x_2} \\ \color{green}{\partial x_3} \\ \color{orange}{\partial x_4} \end{matrix} \right) \right) $$ Se puede ver aquí que el primer vector base exige que los 2 primeros elementos de los siguientes vectores base sean $\partial x_1$ & $\partial x_2$ debido a la condición de ortogonalidad,
De forma similar, el 2º vector exige que todos los 3º elementos de los siguientes vectores sean $\partial x_3$
al igual que el 3er vector para el 4to elemento siendo ellos $\partial x_4$ .

Si se añade otra dimensión, el elemento n+1 del n $th$ El vector debe ser $$-\dfrac{(\partial x_1)²+...+(\partial x_n)²}{\partial x_{n+1}}$$ para cumplir con el $0$ condición de ascensión que a su vez obliga a la nueva n+1 $th$ El vector será de la forma $$\left(\begin{matrix}\partial x_1 \\ ... \\ \partial x_{n+1}\end{matrix}\right)$$ para que sea ortogonal al resto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X