4 votos

Derivadas de funciones multivariables

Me gustaría hacer algunas afirmaciones sobre un objeto sencillo -la derivada de una función univariante- y aplicar y relacionar sus características y mi comprensión de las mismas con las funciones multivariantes.

Funciones univariantes. Una derivada de una función real $f: {\mathrm R} \to {\mathrm R}$ en el punto $a \in {\mathrm R}$ es la pendiente de la función en este punto; es decir, cuánto cambia el valor de la función con respecto al cambio de la variable, o

$$f'(a) = \lim_{h\to0} \frac{f(a + h) - f(a)}{h}.$$

La derivada de esta una función real $f: {\mathrm R} \to {\mathrm R}$ es la función $$f': a \mapsto f'(a)$$ que asigna un punto a la pendiente de la función $f$ en ese momento.

La derivada en un punto no es es la tangente a la gráfica de la función en ese punto, pero está estrechamente relacionada con ella. La tangente en el punto $a$ puede expresarse como

$$t(x) = f(a) + f'(a)(x-a),$$

que resulta ser la mejor aproximación lineal de la función $f$ alrededor de $a$ o el polinomio de Taylor de primer grado $T^{f,a}_1$ .

La función $f'(a)(x-a)$ es lineal en $x$ .

Funciones multivariadas. Dejemos que $f: {\mathrm R}^n \to {\mathrm R}^m$ , donde $m,\ n \in {\mathrm N}$ . Podemos considerar derivadas parciales de $f$ en $a \in {\mathrm R}^n$ definido, por ejemplo, como

$${\partial f\over\partial x_i} = \lim_{h \to 0} \frac{f(a + h{\bf e^i}) - f(a)}{h},$$

que es la derivada de la función en $a$ con respecto a $x_i$ y las demás variables se mantienen constantes, donde ${\bf e^i} = (0, \dots, 0, 1, 0, \dots, 0)$ ( $1$ es $i$ -a partir de la izquierda).

Son derivados de una sola variable funciones parciales y por lo tanto se les aplica lo mismo que he escrito en la primera sección.

El gradiente de la función en un punto es el vector de derivadas parciales en ese punto, es decir

$$\nabla f(a) = \Big({\partial f\over x_1}, \dots, {\partial f\over x_n}\Big).$$

Su significado geométrico es que apunta en la dirección del crecimiento más pronunciado mientras que su valor es el crecimiento en esa dirección.

El equivalente de la derivada en un punto parece ser lo que se llama la diferencial total en ese momento. Si $L$ es el diferencial total en $a \in {\mathrm R}^n$ entonces

$$\lim_{\bf h \to 0} \frac{||f(a + h) - f(a) - L(h)||}{||h||} = 0,$$

donde $||\cdot||$ es la norma euclidiana, lo que significa que $L$ tiene la "propiedad de aproximación" -aproxima la diferencia $f(a + h) - f(a)$ localmente. Si el diferencial total existe, se puede expresar como $L(h) = \nabla{f}(a) \cdot h$ , donde $\cdot$ es el producto punto.

(Creo: el diferencial total no aproximar la función misma - esto se parece a la "derivada de una función en un punto" para las funciones univariantes).

Llego a comprender que el derivada en un punto de una función multivariante puede definirse exactamente igual que la diferencial total en un punto. (Por alguna razón sólo hemos definido la diferencial total para las funciones ${\mathrm R}^n \to {\mathrm R}$ . ¿Esto está relacionado con las matemáticas o es un problema de terminología?)

Cuando intento mirar el derivado $f'$ de la función f Debería ver eso:

  • $f': {\mathrm R}^n \to {\mathscr L}(\mathrm{R}^n, \mathrm{R}^m)$ - y lo hago, esto simplemente afirma que la primera derivada en un punto es una aproximación lineal local de la función original f, pero también que
  • $f'': {\mathrm R}^n \to {\mathscr L}\Big({\mathrm R}^n, {\mathscr L}({\mathrm R}^n, {\mathrm R}^m)\Big)$ que me está volviendo loco.

Me gustaría preguntar:

  1. ¿Por qué el diferencial total no se llama simplemente el derivado ?
  2. ¿Por qué es cierto que $f'': {\mathrm R}^n \to {\mathscr L}\Big({\mathrm R}^n, {\mathscr L}({\mathrm R}^n, {\mathrm R}^m)\Big)$ ? Necesito una forma intuitiva de entender qué es un ${\mathscr L}\Big({\mathrm R}^n, {\mathscr L}({\mathrm R}^n, {\mathrm R}^m)\Big)$ es.

Gracias.

3voto

Steven Gubkin Puntos 3929

Dejemos que $X,Y$ y $Z$ sean espacios vectoriales, y $\mathcal{L}(A,B)$ el espacio de todos los mapas lineales de $A$ a $B$ .

Como se ha señalado anteriormente, si $F \in \mathcal{L}(X,\mathcal{L}(Y,Z))$ entonces podemos formar otro mapa $F_{curry}:X \times Y \to Z$ definido por $F_{curry}(x,y) = F(x)(y)$ . Observe que $F_{curry}$ es un mapeo bilineal: fijando $x$ , $F_{curry}(x,\cdot)$ es lineal en la segunda ranura, y $F_{curry} (\cdot,y)$ es lineal en la primera ranura. A la inversa, dado un mapeo bilineal de $G: X \times Y \to Z$ Puedo producir un elemento $G_{uncurry}\mathcal{L}(X,\mathcal{L}(Y,Z))$ de la manera que se espera: $G_{uncurry}(x)(y) = G(x,y)$ . La palabra clave aquí es "isomorfismo Curry-howard".

Así que $\mathcal{L}(X,\mathcal{L}(Y,Z))$ puede identificarse canónicamente con el espacio de mapeos bilineales de $X \times Y \to Z$ . Estos en ternos podrían identificarse con mapeos lineales del espacio $X \otimes Y \to Z$ el llamado "producto tensorial" de $X$ y $Y$ pero no voy a entrar en eso.

Puede que tengas curiosidad por saber cómo se puede trabajar con un objeto así. ¿Qué datos hay que anotar? Para un mapa lineal, sólo tienes que especificar la acción sobre una base, pero un mapa bilineal no es un mapa lineal. Resulta (deberías comprobarlo) que con especificar la acción sobre todos los pares de vectores base es suficiente.

Volvamos a la tierra y examinemos un caso muy especial. Dejemos que $f:\mathbb{R}^2 \to \mathbb{R}$ se define por $f(x,y) = x^2y$ .

$D(f)\big|_{(x,y)}$ es el mapa lineal dado por la matriz $\left[ \begin{matrix} 2xy&x^2\end{matrix} \right]$ . Es decir, $D(f)\big|_{(x,y)}(\Delta x,\Delta y) = 2xy\Delta x + x^2\Delta y \approx f(x+\Delta x,y+\Delta y) - f(x,y)$ . Obsérvese que la transposición de esta matriz es el "gradiente" de $f$ . Sólo las funciones de $\mathbb{R^n} \to \mathbb{R}$ tienen gradientes.

La segunda derivada debería indicarte ahora cuánto cambia la derivada de un punto a otro. Si incrementamos $(x,y)$ por un poco a $(x+\Delta x,y)$ entonces deberíamos esperar que la derivada aumente en aproximadamente $\left[ \begin{matrix} 2y\Delta x&2x \Delta x\end{matrix} \right]$ . Del mismo modo, cuando aumentamos $y$ por $\Delta y$ la derivada debería cambiar en aproximadamente $\left[ \begin{matrix} 2x \Delta y&0\Delta y\end{matrix} \right]$ .

Por linealidad, si cambiamos de $(x,y)$ a $(x+\Delta x,y+\Delta y)$ esperamos que la derivada cambie por $$\left[ \begin{matrix} \Delta x&\Delta y\end{matrix} \right] \left[ \begin{matrix} 2y&2x\\2x&0\end{matrix} \right]$$

Esto da una matriz que es el cambio aproximado de la derivada. Si lo deseas, puedes aplicarla a otro vector.

Resumiendo, si quisieras ver aproximadamente cuánto cambia la derivada de $(x,y)$ a $(x+\Delta x_2,y+\Delta y_2)$ cuando ambos se evalúan en la misma dirección $(\Delta x_1,\Delta y_1)$ , realizarías el cómputo:

$$\left[ \begin{matrix} \Delta x_2&\Delta y_2\end{matrix} \right] \left[ \begin{matrix} 2x&2x\\2x&0\end{matrix} \right] \left[ \begin{matrix} \Delta x_1\\\Delta y_1\end{matrix} \right]$$ La matriz de segundos parciales derivada anteriormente se denomina hessiana, pero es un poco engañoso escribirla como una matriz, ya que realmente está actuando como una forma bilineal de la manera mostrada anteriormente, es decir $H(v_1,v_2) = v_1^T H v_2$ . Tal vez recuerde haber visto el hessiano en el cálculo multivariable al clasificar los puntos críticos como máximos, mínimos o sillines. En general, los valores propios de signo de la matriz hessiana cuentan toda la historia (aunque, si hay algunos valores propios nulos, puede que tengas que subir la escalera de las derivadas hasta las formas trilineales, etc.).

Obsérvese que sólo he obtenido una "matriz" hessiana porque el codominio de $f$ era unidimensional. Si lo ha sido, digamos, $3$ dimensional que hubiera necesitado $3$ tales matrices, y se alinearían naturalmente en una $2\times2\times3$ caja dimensional, que representaría un tensor de orden superior.

Esperemos que esto dé al menos una pista de cómo continuar. Las palabras de moda que hay que buscar son "álgebra multilineal", "productos tensoriales", "tensores", "análisis tensorial" y "teorema de Taylor multivariable".

No tengo una gran referencia para esto porque, aunque hago análisis en Varias Variables Complejas, de alguna manera nunca he encontrado un libro que trate el análisis real de dimensión superior realmente bien. Estoy seguro de que hay libros por ahí, pero he resuelto la mayoría de estas cosas por mi cuenta. Que yo sepa, nunca se ofreció un curso sobre ello en ninguna universidad a la que fui. Supongo que se supone que la gente absorbe estas cosas cuando aprende geometría diferencial.

1voto

vertical.void Puntos 481

Respuesta parcial

1) La razón por la que se llama "diferencial total" frente a una "derivada" es que una diferencial puede verse como una derivada parcial, y tomamos la suma de todas ellas para obtener la diferencial total.

2) Considera la serie de Taylor de una función multivariante.

1voto

FOR Puntos 1747

En el caso multivariable, como hay infinitas direcciones a lo largo de las cuales se puede tomar el límite, la diferencial total o la derivada total es algo que puede medir la tasa de cambio de una función dada $f$ a lo largo de todas las direcciones posibles en caso de que exista ese límite, mientras que la derivada direccional es algo que mide la tasa de cambio en una dirección determinada solamente, es decir, a lo largo de algún vector que se elija. Para una función de varias variables que da un número real como salida, el gradiente hace su aparición.

El diferencial total sí se aproxima a la función, es la mejor aproximación lineal posible de la función. Nótese que es lineal. Esto nos lleva a la segunda pregunta, que básicamente se refiere a la segunda derivada. La primera derivada $Df \in L(R^n,R^m)$ lo que significa que es un mapa lineal del espacio n-euclidiano al espacio m-euclidiano. Ahora con esto en mente la segunda derivada $D^2f$ será algo que se encuentra en $L(R^n ,L(R^n,R^m))$ Estos mapas se comerían un elemento en $R^n$ y escupir un mapa lineal , en lugar de un número ; así que si $T \in L(R^n ,L(R^n,R^m)$ entonces $T(x)(y) =T(x,y)\in R^m , y \in R^n$ donde $T(x)$ es un mapa lineal sobre $R^n$ .

Así que puedes mirar $T(x)(y)$ en función de 2 variables.

Edición: puedes usar una función de 1 variable para entender esto. Si tomo $f(x) = x^3$ entonces $f'(-1) = 3 $ Así que aquí mi mapa derivado en $x=-1$ es un mapa lineal que no es más que la multiplicación por el número $3$ . Así que tengo $3 \in L(R,R)$ .ahora $f^"(-1) = -6$ Así que de nuevo tengo un mapa lineal $-6 \in L(R, L(R,R))$ Esto significa que por cada $ h \in R$ , $f^"(-1)(h) = -6h$ es el mapa lineal. Intenta hacerlo tú mismo para una función de 2 variables como $x^2+y^2$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X