Una manera de motivar dual espacios y transpone es considerar la diferenciación de funciones escalares de varias variables. El punto básico es que los funcionales son los más fáciles de funciones para lidiar con el corto de la constante de funciones, por lo que la diferenciación es esencialmente la aproximación por una única funcional tal que el error en la aproximación es suficientemente portado bien. Por otra parte, transpone surgen de forma natural a la hora de diferenciar, es decir, la composición de una función con valores escalares con un cambio de coordenadas.
Deje $f : (a,b) \to \mathbb{R}$. Convencionalmente, se define el $f$ a ser diferenciable en a $x \in (a,b)$ si el límite
$$
\lim_{h \to 0} \frac{f(x+h)-f(x)}{h}
$$
existe, en cuyo caso el valor de dicho límite se define como la derivada $f^\prime(x)$$f$$x$. Observe, sin embargo, que esta definición significa que para $h$ lo suficientemente pequeño,
$$
f(x+h)-f(x) = f^\prime(x)h + R_x(h),
$$
donde $h \to f^\prime(x)h$ define una transformación lineal $df_x :\mathbb{R} \to \mathbb{R}$ aproximar $f$ cerca de $x$, y donde el término de error $R_x(h)$ satisface
$$
\lim_{h \to 0} \frac{R_x(h)}{h} = 0.
$$
De hecho, $f$ es diferenciable en a $x$ si y sólo si existe una transformación lineal $T : \mathbb{R} \to \mathbb{R}$ tal que
$$
\lim_{h \to 0} \frac{\lvert f(x+h) - f(x) - T(h) \rvert}{\lvert h \rvert} = 0,
$$
en el que caso de $df_x := T$ es único, y dada por la multiplicación por escalares $f^\prime(x) = T(1)$.
Ahora, vamos a $f : U \to \mathbb{R}^m$ donde $U$ es un subconjunto abierto de $\mathbb{R}^n$. Entonces, podemos definir perfectamente a $f$ a ser diferenciable en a $x \in U$ si y sólo si existe una transformación lineal $T : \mathbb{R}^n \to \mathbb{R}^m$ tal que
$$
\lim_{h \to 0} \frac{\| f(x+h) - f(x) - T(h) \|}{\|h\|} = 0,
$$
en el que caso de $df_x := T$ es único; en particular, para $\|h\|$ lo suficientemente pequeño,
$$
f(x+h) - f(x) = df_x(h) + R_x(h),
$$
donde $df_x$ da una aproximación lineal de $f$ cerca de $x$, de tal manera que el término de error $R_x(h)$ satisface
$$
\lim_{h \to 0} \frac{R_x(h)}{\|h\|} = 0.
$$
Por último, vamos a especializar a los casos en que $f : U \to \mathbb{R}$, es decir, donde $m=1$. Si $f$ es diferenciable en a$x$, $df_x : \mathbb{R}^n \to \mathbb{R}$ es lineal, y por lo tanto,$df_x \in (\mathbb{R}^n)^\ast$, por definición. En particular, para cualquier $v \in \mathbb{R}^n$, la derivada direccional
$$
\nabla_v f(x) := \lim_{\epsilon \to 0} \frac{f(x+\epsilon v) - f(x)}{\epsilon}
$$
existe y está dada por
$$
\nabla_v f(x) = (d_x f)(v).
$$
Por otra parte, el gradiente de la $f$ $x$ es exactamente el único vector de $\nabla f(x) \in \mathbb{R}^n$ tal que
$$
\forall v \in \mathbb{R}^n, \quad (d_x f)(v) = \langle \nabla f(x), v \rangle.
$$
En cualquier caso, la derivada de una función con valores escalares de $n$ variables en un punto es más natural entendido como una funcional en $\mathbb{R}^n$, es decir, como un elemento de $(\mathbb{R}^n)^\ast$.
Ahora, supongamos, por simplicidad, que el $f : \mathbb{R}^n \to \mathbb{R}$ está en todas partes-diferenciable, y deje $S : \mathbb{R}^p \to \mathbb{R}^n$ ser una transformación lineal, por ejemplo, un cambio de coordenadas $\mathbb{R}^n \to \mathbb{R}^n$. A continuación, $f \circ S$ es de hecho en todas partes derivable con derivada $$d_y(f \circ S) = (d_{Sy} f) \circ S = S^t d_{Sy} f,$$ at $y \in \mathbb{R}^p$. On the one hand, if $S = 0$, then $f \circ S = f(0)$ is constant, so that $d_y(f \circ S) = 0 = S^t d_{Sy} f$, as required. On the other hand, if $S \neq 0$, por lo que
$$
\|S\| := \sup_{k \neq 0} \frac{\|Sk\|}{\|k\|} > 0,
$$
de ello se sigue que
$$
\frac {\|f \circ S)(y+k)-(d_{Sy} f \circ S)(k)\|}{\|k\|} = \frac{\|f(Sy + Sk) - d_{Sy}f(Sk)\|}{\|k\|} \leq \|S\|\frac{\|f(Sy + Sk) - d_{Sy}f(Sk)\|}{\|Sk\|} \0, \quad k \a 0
$$
por la diferenciabilidad de $f$ $Sy$ y la continuidad del mapa
$$
k \mapsto \|S\|\frac{\|f(Sy + Sk) - d_{Sy}f(Sk)\|}{\|Sk\|}.
$$
Más concretamente, una vez que sabes que $f \circ S$ es diferenciable en todas partes, entonces para cada a $v \in \mathbb{R}^n$, por la linealidad de la $S$,
$$
(f \circ S)(y + \epsilon v) = f(Sy + \epsilon Sk),
$$
así que, de hecho,
$$
\left(d_y(f \circ S)\right)(k) = \nabla_k(f \circ S)(y) = \nabla_{Sk}f(Sy) = (d_{Sy}f)(Sk) = (S^t d_{Sy}f)(k).
$$
En general, si $S : \mathbb{R}^p \to \mathbb{R}^n$ está en todas partes diferenciable (de nuevo, por simplicidad), entonces
$$
d_y (f \circ S) = (d_{Sy}f) \circ d_y S = (d_y S)^t d_{Sy}f,
$$
que no es otro que el correspondiente caso de la regla de la cadena.