Cuando se habla de la diferencial de una función multidimensional en general, sin una función y aplicación específicas en mente, es mejor olvidarse de sus componentes. Es tedioso y obstruye la visión de lo que es la diferencial: un mapa lineal.
La definición de diferenciabilidad (total) de una función $f:U\longrightarrow\mathbb R^m$ donde $U\subseteq\mathbb R^n$ está abierto es que $f$ es diferenciable en $x_0\in U$ si existe un mapa lineal $L:\mathbb R^n\longrightarrow\mathbb R^m$ que se aproxima a $f$ muy cerca $x_0$ . "Aproximación $f$ amablemente" es una manera informal de decir que la diferencia entre la función $f(x)$ y su aproximación lineal (afín) $f(x_0)+L(x-x_0)$ se reduce a medida que $x\to x_0$ y rápidamente. En particular, más rápido que $x$ va a $x_0$ o enmarcado de forma diferente, más rápido que $x-x_0$ va a $0$ . Esto puede expresarse matemáticamente de dos formas equivalentes:
- $\lim\limits_{x\to x_0}\frac{f(x)-[f(x_0)+L(x-x_0)]}{\Vert x-x_0\Vert}=0.$
- Existe una función resto $R_f:U\longrightarrow\mathbb R^m$ tal que $f(x)=f(x_0)+L(x-x_0)+R(x)$ et $\lim\limits_{x\to x_0}\frac{R_f(x)}{\Vert x-x_0\Vert}$ .
En (1), este límite sólo dice que $f(x)$ menos su aproximación lineal $f(x_0)+L(x-x_0)$ va a $0$ y el $\Vert x-x_0\Vert$ en el denominador garantiza que lo hace más rápido que $x-x_0$ . Y entonces (2) es sólo una reformulación, donde el resto $R_f$ no es más que el numerador de la fracción de (1). Fíjate en que en ningún sitio he hecho referencia a componentes de una función. Por supuesto, $f$ tiene componentes, y podríamos encontrar una representación matricial del mapa lineal $L$ con respecto a las bases estándar de $\mathbb R^n$ et $\mathbb R^m$ cuyas entradas serían las derivadas parciales de las componentes de $f$ pero eso es sólo una representación, y podríamos representarlo de forma completamente diferente si cambiáramos las bases. Lo único importante es que es lineal y tiene las propiedades descritas anteriormente. En cualquier caso, llamamos a este mapa lineal $L$ el diferencial (total) de $f$ en $x_0$ y nos gusta escribirlo como $\mathrm D f(x_0)$ para asegurarse de que todo el mundo sabe qué función aproxima y en qué punto. Pero sigue siendo un mapa lineal.
Ahora al punto real de su pregunta, queremos encontrar el diferencial $\mathrm D(g\circ f)(x_0)$ de una composición de dos funciones diferenciables $f:U\longrightarrow\mathbb R^m$ et $g:V\longrightarrow\mathbb R^l$ donde $U\subseteq\mathbb R^n$ et $V\subseteq\mathbb R^m$ están abiertos y $f(U)\subseteq V$ . Desde $g\circ f$ es una función $U\longrightarrow\mathbb R^l$ donde $U\subseteq\mathbb R^m$ este diferencial es un mapa lineal
$$\mathrm D(g\circ f)(x_0):\mathbb R^n\longrightarrow\mathbb R^l.$$
Tenga en cuenta que esto ya se ajusta a la regla de la cadena: $\mathrm Df(x_0)$ es un mapa $\mathbb R^n\longrightarrow\mathbb R^m$ y $\mathrm Dg(f(x_0))$ es un mapa $\mathbb R^m\longrightarrow\mathbb R^l$ . Aplicación de $\mathrm Df(x_0)$ primero y $\mathrm Dg(f(x_0))$ segundo mapa de $\mathbb R^n$ a $\mathbb R^m$ y de ahí a $\mathbb R^l$ por lo que, en total, va de $\mathbb R^n$ a $\mathbb R^l$ Justo lo que queremos. Esta es también la razón por la que el orden importa para la regla de la cadena multidimensional: El diferencial $\mathrm Df$ debe aplicarse primero, por eso está a la derecha.
Y la prueba real es sólo cálculo: $f$ es diferenciable en $x_0$ con diferencial $\mathrm Df(x_0)$ (Voy a abreviar esto a sólo $L_f$ para el cálculo), y $g$ es diferenciable en $y_0:=f(x_0)$ con diferencial $\mathrm Dg(f(x_0))$ (abreviado $L_g$ ). Ahora, según la segunda versión de la definición anterior, existen funciones resto
$$\begin{align*}R_f:&U\longrightarrow\mathbb R^m,\\ R_g:&V\longrightarrow\mathbb R^l \end{align*}$$
tal que
$$\begin{align}f(x)&=f(x_0)+L_f(x-x_0)+R_f(x)&&(1)\\ g(y)&=g(y_0)+L_g(y-y_0)+R_g(y)&&(2) \end{align}$$
y
$$\begin{align}\lim_{x\to x_0}\frac{R_f(x)}{\Vert x-x_0\Vert}&=0,\\ \lim_{y\to y_0}\frac{R_g(y)}{\Vert y-y_0\Vert}&=0. \end{align}$$
Ahora bien, si insertamos $y=f(x)$ en $(2)$ y recuerda $y_0=f(x_0)$ obtenemos
$$\begin{align}g(f(x))&=g(f(x_0))+L_g(L_f(x-x_0)+R_f(x))+R_g(f(x))\\ &=g(f(x_0))+\underbrace{L_g(L_f(x-x_0))}_{=\mathrm Dg(f(x_0))\cdot\mathrm Df(x_0)(x-x_0)}+\underbrace{L_g(R_f(x))+R_g(f(x))}_{=R_{g\circ f}(x)}. \end{align}$$
Puedes demostrar que la parte más a la derecha va a $0$ incluso cuando se divide por $\Vert x-x_0\Vert$ y entonces esta ecuación es exactamente la que define el diferencial de $\mathrm D(g\circ f)(x_0)$ y es aparentemente $\mathrm Dg(f(x_0))\cdot\mathrm Df(x_0)$ . En $\cdot$ está ahí para denotar la multiplicación de matrices porque cuando estemos calculando usaremos la representación matricial, pero podríamos haber escrito $\mathrm Dg(f(x_0))\circ\mathrm Df(x_0)$ igual de bien.
0 votos
Respuesta a la misma pregunta aquí math.stackexchange.com/questions/3714878/