Otras respuestas son correctas al utilizar la derivada direccional para mostrar que el gradiente es la dirección de mayor ascenso/descenso. Sin embargo, creo que es instructivo mirar la definición de la derivada direccional desde los primeros principios para entender por qué esto es así (no es arbitrariamente definido como el producto punto del gradiente y el vector direccional).
Dejemos que $f(\mathbf{x}):\mathbb{R}^n \rightarrow \mathbb{R}$ . Las derivadas parciales de $f$ son las tasas de cambio a lo largo de los vectores base de $\mathbf{x}$ :
$\textrm{rate of change along }\mathbf{e}_i = \lim_{h\rightarrow 0} \frac{f(\mathbf{x} + h\mathbf{e}_i)- f(\mathbf{x})}{h} = \frac{\partial f}{\partial x_i}$
Cada derivada parcial es una escalar . Es simplemente una tasa de cambio.
El gradiente de $f$ se define entonces como el vector :
$\nabla f = \sum_{i} \frac{\partial f}{\partial x_i} \mathbf{e}_i$
Podemos extender naturalmente el concepto de tasa de cambio a lo largo de un vector base a un vector (unitario) que apunta en una dirección arbitraria. Sea $\mathbf{v}$ sea un vector de este tipo, es decir $\mathbf{v} = \sum_{i} \alpha_i \mathbf{e}_i$ donde $\sum_{i} \alpha_i^2 = 1$ . Entonces:
$\textrm{rate of change along }\mathbf{v} = \lim_{h\rightarrow 0} \frac{f(\mathbf{x} + h\mathbf{v}) - f(\mathbf{x})}{h}$
De nuevo, esta cantidad es un escalar.
Ahora, se puede demostrar que si $f$ es diferenciable en $\mathbf{x}$ el límite anterior se evalúa en: $(\nabla f) \cdot \mathbf{v}$ . Se trata de un producto punto de dos vectores, que devuelve un escalar.
Sabemos por el álgebra lineal que el producto punto es máximo cuando los dos vectores apuntan en la misma dirección. Esto significa que la tasa de cambio a lo largo de un vector arbitrario $\mathbf{v}$ se maximiza cuando $\mathbf{v}$ apunta en la misma dirección que el gradiente. En otras palabras, el gradiente corresponde a la tasa de ascenso/descenso más pronunciada.