5 votos

Derivada direccional: ¿qué relación hay entre la definición por límite y la definición como producto puntual?

Intento intuir por qué el gradiente apunta a la dirección de la subida más pronunciada. Me confundí porque encontré que la derivada direccional se explica con ayuda del gradiente y el gradiente se explica con ayuda de la derivada direccional.

Por favor, explique cuáles son los pasos exactos que llevan de la derivada direccional definida por el límite $\nabla_{v} f(x_0) = \lim_{h\to 0} \frac{f(x_0+hv)-f(x_0)}h$ a la derivada direccional definida como producto punto del gradiente y el vector $\nabla_{v} f(x_0) = \nabla f(x_0)\cdot{v}$ ?

En otras palabras, ¿cómo demostrar lo siguiente? $$\lim_{h\to 0} \frac{f(x_0+hv)-f(x_0)}h = \nabla f(x_0)\cdot{v}$$

0 votos

Puedes encontrar math.stackexchange.com/q/1912660/265466 y preguntas relacionadas informativas.

9voto

Dizpo Puntos 1

El límite $\lim_{t\to 0} \frac{f(x_0+tv)-f(x_0)}t$ da el definición de la derivada en la dirección del vector unitario $v$ en $x=x_0\in \mathbb R^n$ Es decir $\frac{\partial}{\partial v} f (x_0)$ .

La fórmula $$\frac{\partial}{\partial v} f (x_0)=\nabla f(x_0)\cdot v$$ da una propiedad que es válida bajo la hipótesis de que $f$ es diferenciable en $x=x_0$ y es bastante útil para los cálculos. (Si $f$ no es diferenciable en $x=x_0$ entonces esa relación no tiene por qué ser cierta, aunque existan todas las derivadas direccionales).

La idea de la prueba es que siendo $f$ diferenciable en $x_0$ entonces el gradiente $\nabla f(x_0)$ existe y $$\lim_{x\to x_0}\frac{|f(x)-f(x_0)-\nabla f(x_0)\cdot(x-x_0)|}{||x-x_0||}=0$$

Pensemos en el punto $x=x_0+tv$ (digamos que para los fijos $x_0$ y $v$ ). Por definición de la derivada direccional (y restando y sumando $\nabla f(x_0)\cdot (x_0+tv-x_0$ ), conduce a

$$\frac{\partial}{\partial v} f (x_0)=\lim_{t\to 0} \frac{f(x_0+tv)-f(x_0)}t=$$ $$=\lim_{t\to 0} \frac{f(x_0+tv)-f(x_0)-\nabla f(x_0)\cdot(x_0+tv-x_0)}{||(x_0+tv)-x_0||}\cdot \frac{|t|\,||v||}{t}+\frac{\nabla f(x_0)\cdot(x_0+tv-x_0)}{t}.$$

Y como el límite del primer sumando es $0$ (¿por qué?) (*) y la segunda es constante el resultado es $$\frac{\partial}{\partial v} f (x_0)=\nabla f(x_0)\cdot v,$$ que da la fórmula habitual.

Lo que puede ser más interesante para entender esta relación es cuando no existe tal relación. Dejemos que $f \colon \mathbb R^2 \to \mathbb R$ y $$f(x,y)= \begin{cases} \tfrac{x^2y}{x^2+y^2} & (x,y)\neq (0,0) \\ 0 & (x,y)=(0,0). \\ \end{cases}$$

Un cálculo fácil utilizando la definición muestra que, si $v=(v_x,v_y)$ (supongamos que $||v||=1$ ), la derivada direccional es en cada dirección $$\frac{\partial}{\partial v} f (0,0)=\frac{v_x^2 v_y}{v_x^2+v_y^2}=v_x^2 v_y$$ (en particular, tanto $\frac{\partial}{\partial x} f (0,0)$ y $\frac{\partial}{\partial y} f (0,0)$ son cero, es decir $\nabla f(0,0)=(0,0)$ .

Por lo tanto, si la "fórmula del producto punto" fuera válida, debería darse el caso de que $$\frac{\partial}{\partial v} f (0,0)=(0,0)\cdot (v_x,v_y)=0,$$ que sólo se produce en las direcciones del $x$ y $y$ ejes. (Por cierto, esto también demuestra que $f$ no es diferenciable en $(0,0)$ .)

Te sugiero que intentes imaginar por qué la forma en que las derivadas direccionales varían cuando cambiamos de dirección en este caso (piense en el $xy$ plano como el suelo) no son compatibles con la existencia de un plano tangente (diferenciabilidad).


(*) Para verificar que $$\lim_{t\to 0} \frac{f(x_0+tv)-f(x_0)-\nabla f(x_0)\cdot(x_0+tv-x_0)}{||(x_0+tv)-x_0||}\cdot \frac{|t|\,||v||}{t}=0,$$ Primero, observe que $\frac{|t|\,||v||}{t}$ es igual a más o menos $||v||$ dependiendo del signo de $t$ lo que significa que es una función acotada de $t$ ( $t\neq 0$ ). Por lo tanto, para demostrar nuestra afirmación basta con mostrar que $$\lim_{t\to 0} \frac{f(x_0+tv)-f(x_0)-\nabla f(x_0)\cdot(x_0+tv-x_0)}{||(x_0+tv)-x_0||}=0.$$

Pero esto es una consecuencia de $f$ siendo diferenciable. De hecho, decimos que $f\colon \mathbb R^n \rightarrow \mathbb R$ es diferenciable en $x_0$ si y sólo si $$\lim_{x\to x_0} \frac{f(x)-f(x_0)-\nabla f(x_0)\cdot(x-x_0)}{||x-x_0||}=0.$$

Nuestra expresión sólo tiene $x_0+tv$ en lugar de $x$ y como el límite es para $t\to 0$ También es cierto que $x_0+tv\to x_0$ . La única diferencia es que la definición de función diferenciable utiliza un límite doble/triple/etc. (piense en secuencias de puntos de $\mathbb R^n$ convergiendo a $x_0$ desde cualquier dirección y en todo tipo de caminos simples o complicados), mientras que en nuestro límite $x$ tiende a $x_0$ sólo a lo largo de la línea recta en la dirección de $v$ . Pero como $f$ es diferenciable en $x_0$ el último límite es $0$ y lo mismo ocurre si restringimos al subconjunto de $\mathbb R^n$ esa es la línea.

0 votos

¿Podría explicar la parte del "por qué"?

0 votos

He añadido una explicación al final del texto. No sé si es clara, pero tal vez te sirva.

2voto

Esto es realmente una pregunta de álgebra lineal.

Puedes demostrar que la derivada direccional depende linealmente del vector dirección $v$ , es decir, satisface la relación:

$$\nabla_{a v + b u} f = a\,\nabla_v f + b\,\nabla_u f.$$

Para los escalares $a,b$ y vectores $v,u$ . El gradiente es el vector de derivadas parciales, que a su vez no son más que las derivadas direccionales en la dirección de los vectores base : $\frac{\partial}{\partial x_k} f =\nabla_{e_k} f$ . Ahora, escribiendo $v$ en la base canónica $v = v_1 e_1 + \dots + v_n e_n$ por la linealidad anterior:

$$\nabla_{v} f = v_1 \frac{\partial}{\partial x_1} f + \cdots + v_n \frac{\partial}{\partial x_n} f$$

Que es la fórmula del producto punto que mencionas.

1 votos

Estoy de acuerdo en que esta es la perspectiva correcta: una vez que se sabe que la derivada direccional es lineal en la dirección, obviamente se puede representar por multiplicación matricial. Pero esta linealidad es un hecho bastante profundo, que requiere como señala Alejandro el hecho de que $f$ es diferenciable (es decir, tiene una aproximación lineal local).

1voto

Marcus Aurelius Puntos 16

La mejor respuesta a esta pregunta es partir de la definición de la derivada.

Dejemos que $f: \mathbb{R}^3 \to \mathbb{R}$ . (básicamente las funciones en las que estás pensando en tu clase de multivariable). La buena definición de la derivada (léase: la que a mí me gusta y la que se generaliza bien a dimensiones superiores) es la único transformación lineal $L: \mathbb{R}^3 \to \mathbb{R}$ que satisface:

$$\lim_{h\to 0}\frac{f(x+h) - f(x) - L(h)}{\mid h \mid} = 0.$$

En pocas palabras, la derivada en un punto es la transformada lineal que mejor aproxima la función en una pequeña vecindad de ese punto.

El álgebra lineal nos dice que tal transformación lineal $L: \mathbb{R}^3 \mapsto \mathbb{R}$ viene dada en realidad por una matriz (un vector disfrazado): $\begin{bmatrix} m_1 & m_2 & m_3 \end{bmatrix}$ . Su entrada h viene dada por un vector $\begin{bmatrix} h_1 \\ h_2 \\ h_3 \end{bmatrix}$ y calculando $L(h)$ es sólo cuestión de hacer la multiplicación de la matriz. Para este caso, ¡es exactamente un producto punto entre la entrada y el gradiente!

Bien, lo que he mostrado aquí es una "derivada general", es decir, un gradiente. Ahora vamos a averiguar lo que es una derivada direccional.

Es la misma definición,

$$\lim_{h\to 0}\frac{f(x+h) - f(x) - L(h)}{\mid h \mid} = 0.$$

excepto que restringimos $h$ para que sea proporcional a algún vector de dirección deseado $v$ . Esto significa que nos "acercamos" al límite a lo largo de una dirección específica. Entonces la cantidad $L(h)$ es un número que es una derivada direccional. Si ya sabes esto $L$ -recuerda, esto es el gradiente- entonces todo lo que tienes que hacer es tomar un producto punto entre $L$ ¡y un vector unitario específico! Esto debería unificar la definición de límite y la "definición de producto punto", y todo lo que necesitábamos era un poco de multiplicación matricial (el producto punto es una multiplicación matricial disfrazada) y un refinamiento de la definición de límite.


Material avanzado

En general (es decir, los mapas que no son sólo del espacio tridimensional al espacio unidimensional), las derivadas serán matrices de cierta dimensión, y las derivadas direccionales/parciales serán vectores en general, no sólo números. Además, es posible que ciertas funciones patológicas (con mal comportamiento) tengan todas las derivadas direccionales, pero no sean diferenciables (es decir, que no satisfagan la definición de límite).

0 votos

No eres riguroso en cuanto a lo que es un vector y lo que es un escalar. Si h es un vector, entonces deberías tomar el límite cuando va al vector cero, no el límite cuando va al escalar cero; tanto h como 0 deberían estar en negrita (al igual que x). O bien se podría plantear como si se requiriera que esa expresión en términos de de h *v va a cero para todos los vectores no nulos v . Si v se toma como un vector unitario, entonces |h v | es sólo h. Esto también simplifica la derivada direccional a ser con un v en lugar de sobre todo v .

0 votos

Son vectores, sólo que no sabía cómo ponerlos en negrita

0 votos

Puedes buscar "negrita". Aquí hay un resultado: meta.mathoverflow.net/questions/2314/

0voto

Nick A. Puntos 85

No es más que la conocida regla de la cadena. Permítanme que me explaye.

Estamos en $\mathbb{R^n}$ y queremos llevar la derivada diraccional a $u=(u_1,u_2,...,u_n)$ de la función $f:\mathbb{R^n}\rightarrow \mathbb{R}$ en algún momento $p_0=(p_1,...,p_n)$ .

Por definición $D_uf|_{p_{0}}=\lim_{t\rightarrow0}(\frac{f(p_0+tu)-f(p_0)}{t})$ . Por la regla de la cadena $D(fog)|_p=Df|_{g(p)}Dg|_{p_0}$ . Así que el límite se convierte en $<\nabla f|_{p_0},\frac{d(p_0+tu)}{dt}>= <\nabla f|_{p_0},u>$ .

Obsérvese que con este método dos vectores $a, l\cdot a$ darán resultados diferentes aunque apunten a la misma dirección. Por eso, cuando se habla de derivada direccional, algunos sólo admiten vectores unitarios.

0voto

Acccumulation Puntos 13

En el cálculo básico, se trata de funciones que tienen una entrada y una salida unidimensionales. Cuando tomas la derivada, obtienes otra función 1D -> 1D. Sin embargo, una vez que empiezas a tratar con funciones en más dimensiones, las cosas se complican mucho más. La derivada direccional es una forma de simplificar las cosas. En lugar de expresar una función f como sobre vectores en general, es decir, f( v ), se expresa la entrada como un escalar h por un vector unitario u . Si u es fija, se puede tener una función con una entrada unidimensional variando h; se puede definir g <strong>u </strong> (h) = f(h u ). Ahora puedes obtener una derivada g'(h) que también es una simple función 1D -> 1D.

Una vez que entiendas el concepto de las derivadas direccionales, la siguiente idea principal que debes entender es la idea de que la derivada es lineal. Es decir, si v \= a + b , entonces g' <strong>v </strong> (h) = g' <strong>a </strong> (h) + g' <strong>b </strong> (h) (nótese que estos vectores no están restringidos a ser unitarios). Así que si tenemos alguna base i , j , k para nuestro espacio vectorial, entonces podemos encontrar la derivada en cualquier dirección descomponiendo v en los vectores base, y multiplicando los coeficientes por las derivadas direccionales correspondientes. Así, si v \= c 1 i + c 2 j + c 3 k , entonces g' <strong>v </strong> \= c 1 g' <strong>i </strong> + c 2 g' <strong>j </strong> + c 3 g' <strong>k </strong> . Obsérvese que eso es sólo el producto punto de [c 1 ,c 2 ,c 3 ] y [g' <strong>i </strong> ,g' <strong>j </strong> ,g' <strong>k </strong> ]. El primero es sólo el vector en la base dada, mientras que el segundo es el gradiente en la base dada.

Entonces, ¿cuál es la dirección de mayor ascenso? Para ello, queremos g' <strong>v </strong> /| v | para ser el máximo. Podemos utilizar la desigualdad de Cauchy-Schwarz para encontrar que esto ocurre cuando el vector apunta en la misma dirección que el gradiente. Si cambiáramos a otra base [ g , a , b ] donde g es el gradiente, y a y b son ortogonales a g entonces las derivadas direccionales de a y b será cero, por lo que la derivada direccional de un vector arbitrario v dependerá del g componente de v que es máximo cuando v está en la misma dirección que g .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X