Tengo una pregunta sobre el gradiente de una función mutlivariable.
Para una función $f: \mathbb{R}^{n} \to \mathbb{R}$ el gradiente viene dado por $$ [\frac{\partial f}{\partial x_1} \cdots \frac{\partial f}{\partial x_n}]$$
De la discusión que he leído, estoy de acuerdo con la noción de que el gradiente es exactamente la dirección del ascenso más pronunciado.
Para motivar mi pregunta, considero un algoritmo de descenso de gradiente. El algoritmo de descenso de gradiente tiene como objetivo elegir los parámetros $\vec{\theta} = [\theta_1, \cdots, \theta_n]$ de forma que se minimice la siguiente función de costes.
$$J(\theta) = \sum_{i=1}^{m} (h_{\theta}(x_i) - y_i)^2$$ donde $h_{\theta}$ es una función parametrizada por $\theta$ .
El algoritmo funciona actualizando $\theta_{j}$ a $\theta_{j}'$ para todos $j$ utilizando la siguiente regla de actualización. $$ \theta_{j}' = \theta_{j} - \alpha \frac{\partial J(\theta)}{\partial \theta_{j}}$$ para alguna constante $\alpha$ .
Por la definición de gradiente, nuestro algoritmo se acerca cada vez más al mínimo. Entiendo que el gradiente es la dirección de la mayor tasa de cambio de la función (esto viene del argumento del coseno enlazado más abajo), pero eso podría significar tanto aumento como disminución? ¿Por qué la pendiente del gradiente siempre apunta a un máximo local y no a un mínimo?
¿Por qué la pendiente es la dirección de la subida más pronunciada?