El objetivo de las derivadas en una variable es proporcionar aproximaciones lineales f(x)=f(p)+f′(p)(x−p)+o(|x−p|) a funciones agradables. Las derivadas multivariantes funcionan de la misma manera, excepto que "aproximación lineal" significa aquí la aproximación por una transformación lineal general (una matriz) en lugar de un escalar.
Esto se precisa con la siguiente definición: decimos que una función f:Rn→Rm tiene derivado total una transformación lineal dfp:Rn→Rm en un punto p si existe ϵ>0 y una función Ep(h) definido para |h|<ϵ tal que
f(p+h)=f(p)+dfp(h)+|h|Ep(h)
donde lim . La matriz df_p a veces se denomina Jacobiano . En notación little-o escribimos esto
f(p + h) = f(p) + df_p(h) + o(|h|).
Esto puede parecer innecesariamente complicado, pero es la clave para entender la regla de la cadena multivariante. Supongamos que además de f tenemos otra función g : \mathbb{R}^m \to \mathbb{R}^k con una derivada total dg_q en algún momento q y supongamos que f(p) = q . Entonces
gf(p + h) = g \left( f(p) + df_p(h) + o(|h|) \right) = gf(p) + dg_q df_p(h) + o(|h|)
o, en otras palabras,
La derivada total d(gf)_p de gf en p es el producto (matricial) de las derivadas totales dg_q et df_p .
Este es el enunciado más general de la regla de la cadena multivariante. La relación con los diagramas de árbol es que se puede modelar la multiplicación de matrices mediante la composición de matrices de incidencia que provienen de los gráficos que representan las relaciones de incidencia entre los conjuntos.
En tu ejemplo particular, tienes una función t \mapsto (x, y) : \mathbb{R}^1 \to \mathbb{R}^2 y otra función (x, y) \mapsto z : \mathbb{R}^2 \to \mathbb{R}^1 . La derivada total de la primera función es \left[ \begin{array}{c} \frac{dx}{dt} \\\ \frac{dy}{dt} \end{array} \right] y la derivada total de la segunda función es \left[ \frac{dz}{dx}, \frac{dz}{dy} \right] por lo que la derivada total de su composición es el producto
\frac{dz}{dt} = \left[ \frac{dz}{dx}, \frac{dz}{dy} \right] \left[ \begin{array}{c} \frac{dx}{dt} \\\ \frac{dy}{dt} \end{array} \right]
y esta es precisamente la fórmula que das. La conexión con los diagramas es que se puede representar una composición de transformaciones lineales \mathbb{R}^1 \to \mathbb{R}^2 et \mathbb{R}^2 \to \mathbb{R}^1 utilizando un par de matrices de incidencia, una para representar las incidencias entre un 1 -y un conjunto de elementos 2 -conjunto de elementos, y el otro para representar las incidencias entre ese 2 -conjunto de elementos y otro 1 -conjunto de elementos.