2 votos

Comprender la regla de la cadena multidimensional

Tengo problemas para entender la regla de la cadena multidimensional. Para funciones diferenciables $f,g$ definido por $f: U \to V$ , $g:V\to\mathbb K^n$ donde $U \subseteq \mathbb R^d$ , $V \subseteq \mathbb R^\nu$ están abiertos,

$$\Big(\mathrm D(g \circ f)\Big)(x)=\Big(\mathrm D g(f(x))\Big)\cdot\Big(\mathrm Df(x)\Big).$$

Más que comprender esta identidad, la he aceptado. Ya vi algunos ejemplos y comprendí el hecho de que no entendía algo completamente. Al diferenciar una función multidimensional, aparentemente se diferencian los componentes por separado y de alguna manera se suma todo? Desgraciadamente no sé exactamente cómo... cualquier explicación sería muy apreciada.

0 votos

Respuesta a la misma pregunta aquí math.stackexchange.com/questions/3714878/

1voto

Vercassivelaunos Puntos 313

Cuando se habla de la diferencial de una función multidimensional en general, sin una función y aplicación específicas en mente, es mejor olvidarse de sus componentes. Es tedioso y obstruye la visión de lo que es la diferencial: un mapa lineal.

La definición de diferenciabilidad (total) de una función $f:U\longrightarrow\mathbb R^m$ donde $U\subseteq\mathbb R^n$ está abierto es que $f$ es diferenciable en $x_0\in U$ si existe un mapa lineal $L:\mathbb R^n\longrightarrow\mathbb R^m$ que se aproxima a $f$ muy cerca $x_0$ . "Aproximación $f$ amablemente" es una manera informal de decir que la diferencia entre la función $f(x)$ y su aproximación lineal (afín) $f(x_0)+L(x-x_0)$ se reduce a medida que $x\to x_0$ y rápidamente. En particular, más rápido que $x$ va a $x_0$ o enmarcado de forma diferente, más rápido que $x-x_0$ va a $0$ . Esto puede expresarse matemáticamente de dos formas equivalentes:

  1. $\lim\limits_{x\to x_0}\frac{f(x)-[f(x_0)+L(x-x_0)]}{\Vert x-x_0\Vert}=0.$
  2. Existe una función resto $R_f:U\longrightarrow\mathbb R^m$ tal que $f(x)=f(x_0)+L(x-x_0)+R(x)$ et $\lim\limits_{x\to x_0}\frac{R_f(x)}{\Vert x-x_0\Vert}$ .

En (1), este límite sólo dice que $f(x)$ menos su aproximación lineal $f(x_0)+L(x-x_0)$ va a $0$ y el $\Vert x-x_0\Vert$ en el denominador garantiza que lo hace más rápido que $x-x_0$ . Y entonces (2) es sólo una reformulación, donde el resto $R_f$ no es más que el numerador de la fracción de (1). Fíjate en que en ningún sitio he hecho referencia a componentes de una función. Por supuesto, $f$ tiene componentes, y podríamos encontrar una representación matricial del mapa lineal $L$ con respecto a las bases estándar de $\mathbb R^n$ et $\mathbb R^m$ cuyas entradas serían las derivadas parciales de las componentes de $f$ pero eso es sólo una representación, y podríamos representarlo de forma completamente diferente si cambiáramos las bases. Lo único importante es que es lineal y tiene las propiedades descritas anteriormente. En cualquier caso, llamamos a este mapa lineal $L$ el diferencial (total) de $f$ en $x_0$ y nos gusta escribirlo como $\mathrm D f(x_0)$ para asegurarse de que todo el mundo sabe qué función aproxima y en qué punto. Pero sigue siendo un mapa lineal.

Ahora al punto real de su pregunta, queremos encontrar el diferencial $\mathrm D(g\circ f)(x_0)$ de una composición de dos funciones diferenciables $f:U\longrightarrow\mathbb R^m$ et $g:V\longrightarrow\mathbb R^l$ donde $U\subseteq\mathbb R^n$ et $V\subseteq\mathbb R^m$ están abiertos y $f(U)\subseteq V$ . Desde $g\circ f$ es una función $U\longrightarrow\mathbb R^l$ donde $U\subseteq\mathbb R^m$ este diferencial es un mapa lineal

$$\mathrm D(g\circ f)(x_0):\mathbb R^n\longrightarrow\mathbb R^l.$$

Tenga en cuenta que esto ya se ajusta a la regla de la cadena: $\mathrm Df(x_0)$ es un mapa $\mathbb R^n\longrightarrow\mathbb R^m$ y $\mathrm Dg(f(x_0))$ es un mapa $\mathbb R^m\longrightarrow\mathbb R^l$ . Aplicación de $\mathrm Df(x_0)$ primero y $\mathrm Dg(f(x_0))$ segundo mapa de $\mathbb R^n$ a $\mathbb R^m$ y de ahí a $\mathbb R^l$ por lo que, en total, va de $\mathbb R^n$ a $\mathbb R^l$ Justo lo que queremos. Esta es también la razón por la que el orden importa para la regla de la cadena multidimensional: El diferencial $\mathrm Df$ debe aplicarse primero, por eso está a la derecha.

Y la prueba real es sólo cálculo: $f$ es diferenciable en $x_0$ con diferencial $\mathrm Df(x_0)$ (Voy a abreviar esto a sólo $L_f$ para el cálculo), y $g$ es diferenciable en $y_0:=f(x_0)$ con diferencial $\mathrm Dg(f(x_0))$ (abreviado $L_g$ ). Ahora, según la segunda versión de la definición anterior, existen funciones resto

$$\begin{align*}R_f:&U\longrightarrow\mathbb R^m,\\ R_g:&V\longrightarrow\mathbb R^l \end{align*}$$

tal que

$$\begin{align}f(x)&=f(x_0)+L_f(x-x_0)+R_f(x)&&(1)\\ g(y)&=g(y_0)+L_g(y-y_0)+R_g(y)&&(2) \end{align}$$

y

$$\begin{align}\lim_{x\to x_0}\frac{R_f(x)}{\Vert x-x_0\Vert}&=0,\\ \lim_{y\to y_0}\frac{R_g(y)}{\Vert y-y_0\Vert}&=0. \end{align}$$

Ahora bien, si insertamos $y=f(x)$ en $(2)$ y recuerda $y_0=f(x_0)$ obtenemos

$$\begin{align}g(f(x))&=g(f(x_0))+L_g(L_f(x-x_0)+R_f(x))+R_g(f(x))\\ &=g(f(x_0))+\underbrace{L_g(L_f(x-x_0))}_{=\mathrm Dg(f(x_0))\cdot\mathrm Df(x_0)(x-x_0)}+\underbrace{L_g(R_f(x))+R_g(f(x))}_{=R_{g\circ f}(x)}. \end{align}$$

Puedes demostrar que la parte más a la derecha va a $0$ incluso cuando se divide por $\Vert x-x_0\Vert$ y entonces esta ecuación es exactamente la que define el diferencial de $\mathrm D(g\circ f)(x_0)$ y es aparentemente $\mathrm Dg(f(x_0))\cdot\mathrm Df(x_0)$ . En $\cdot$ está ahí para denotar la multiplicación de matrices porque cuando estemos calculando usaremos la representación matricial, pero podríamos haber escrito $\mathrm Dg(f(x_0))\circ\mathrm Df(x_0)$ igual de bien.

0 votos

Gracias. Ahora sí que he captado la idea. Pero sigo sin saber como utilizarla... el punto con las sumas debe aparecer en el producto matricial pero no consigo conectar los dos conceptos. Dada una función $f: \mathbb R^3 \to \mathbb R^4, (x,y,z) \mapsto (x^3, y^3, z^3, x^2 y^2 z^2)$ ¿Cómo puedo calcular $\frac{\partial}{\partial x} f(8x^7, 10y, z)$ ?

1 votos

@Thomas: Usted define la función $g:\mathbb R^3\to\mathbb R^3,~(x,y,z)\mapsto(8x^7,10y,z)$ y luego calcular $\mathrm D(f\circ g)$ según la regla de la cadena. La primera columna de su representación matricial contendrá las derivadas parciales de las funciones componentes de $f$ por ejemplo $x$ .

0 votos

Vale - lo hice en general. Por multiplicación matricial, obtuve la siguiente fórmula: $\frac{\partial}{\partial x_1}((g \circ f)_1(x)) = \sum_{j=1}^\nu \frac{\partial g_1}{\partial x_j}(f(x)) \frac{\partial f_j}{\partial x_1}(x)$ . ¿Es correcto?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X