El objetivo de las derivadas en una variable es proporcionar aproximaciones lineales $f(x) = f(p) + f'(p) (x - p) + o(|x - p|)$ a funciones agradables. Las derivadas multivariantes funcionan de la misma manera, excepto que "aproximación lineal" significa aquí la aproximación por una transformación lineal general (una matriz) en lugar de un escalar.
Esto se precisa con la siguiente definición: decimos que una función $f : \mathbb{R}^n \to \mathbb{R}^m$ tiene derivado total una transformación lineal $df_p : \mathbb{R}^n \to \mathbb{R}^m$ en un punto $p$ si existe $\epsilon > 0$ y una función $E_p(h)$ definido para $|h| < \epsilon$ tal que
$$f(p + h) = f(p) + df_p(h) + |h| E_p(h)$$
donde $\lim_{h \to 0} E_p(h) = 0$ . La matriz $df_p$ a veces se denomina Jacobiano . En notación little-o escribimos esto
$$f(p + h) = f(p) + df_p(h) + o(|h|).$$
Esto puede parecer innecesariamente complicado, pero es la clave para entender la regla de la cadena multivariante. Supongamos que además de $f$ tenemos otra función $g : \mathbb{R}^m \to \mathbb{R}^k$ con una derivada total $dg_q$ en algún momento $q$ y supongamos que $f(p) = q$ . Entonces
$$gf(p + h) = g \left( f(p) + df_p(h) + o(|h|) \right) = gf(p) + dg_q df_p(h) + o(|h|)$$
o, en otras palabras,
La derivada total $d(gf)_p$ de $gf$ en $p$ es el producto (matricial) de las derivadas totales $dg_q$ et $df_p$ .
Este es el enunciado más general de la regla de la cadena multivariante. La relación con los diagramas de árbol es que se puede modelar la multiplicación de matrices mediante la composición de matrices de incidencia que provienen de los gráficos que representan las relaciones de incidencia entre los conjuntos.
En tu ejemplo particular, tienes una función $t \mapsto (x, y) : \mathbb{R}^1 \to \mathbb{R}^2$ y otra función $(x, y) \mapsto z : \mathbb{R}^2 \to \mathbb{R}^1$ . La derivada total de la primera función es $\left[ \begin{array}{c} \frac{dx}{dt} \\\ \frac{dy}{dt} \end{array} \right]$ y la derivada total de la segunda función es $\left[ \frac{dz}{dx}, \frac{dz}{dy} \right]$ por lo que la derivada total de su composición es el producto
$$\frac{dz}{dt} = \left[ \frac{dz}{dx}, \frac{dz}{dy} \right] \left[ \begin{array}{c} \frac{dx}{dt} \\\ \frac{dy}{dt} \end{array} \right]$$
y esta es precisamente la fórmula que das. La conexión con los diagramas es que se puede representar una composición de transformaciones lineales $\mathbb{R}^1 \to \mathbb{R}^2$ et $\mathbb{R}^2 \to \mathbb{R}^1$ utilizando un par de matrices de incidencia, una para representar las incidencias entre un $1$ -y un conjunto de elementos $2$ -conjunto de elementos, y el otro para representar las incidencias entre ese $2$ -conjunto de elementos y otro $1$ -conjunto de elementos.