Supongamos que la función vectorial $\mathbf{f}:\mathbb{R}^n\rightarrow\mathbb{R}^m$ tiene la derivada (total) en $\mathbf{x_0}\in \mathbb{R}^n$ denotado por $\mathrm{d}_\mathbf{x_0}\mathbf{f}$ . Es una transformación lineal de $\mathbb{R}^n$ a $\mathbb{R}^m$ . Da el diferencial (total) de la función $\mathbf{f}$ en $\mathbf{x_0}$ como una función que mapea desde $\mathbb{R}^n$ a $\mathbb{R}^m$ aplicando a la variable vectorial $\mathbf{x}$ cerca de $\mathbf{x_0}$ para dar $\mathrm{d}_\mathbf{x_0}\mathbf{f}\left(\mathbf{x}-\mathbf{x_0}\right)$ . Con respecto a los conjuntos de bases estándar $\left\{\mathbf{\hat{a}}_i\right\}_{i=1}^{n}$ y $\left\{\mathbf{\hat{b}}_i\right\}_{i=1}^{m}$ de $\mathbb{R}^n$ y $\mathbb{R}^m$ respectivamente, la derivada total $\mathrm{d}_\mathbf{x_0}\mathbf{f}$ corresponde a la $ m \times n$ matriz llamada matriz jacobiana
$$\left(\mathrm{d}_\mathbf{x_0}\mathbf{f}\right)=\left(\begin{matrix}\frac{\partial f_1}{\partial x_1}&&\cdots&&\frac{\partial f_1}{\partial x_n}\\\vdots&&\ddots&&\vdots\\\frac{\partial f_m}{\partial x_1}&&\cdots&&\frac{\partial f_m}{\partial x_n}\end{matrix}\right),\\\mathbf{x_0}=x_i \mathbf{\hat{a}}_i,\mathbf{f}\left(\mathbf{x}\right)=f_i\left(\mathbf{x}\right)\mathbf{\hat{b}}_i$$
Por otro lado, el gradiente de $\mathbf{f}$ donado por $\nabla\mathbf{f}$ es una transformación lineal de $\mathbb{R}^m$ volver a $\mathbb{R}^n$ definida, con respecto a los mismos conjuntos de bases estándar, de modo que la matriz correspondiente de la misma es la $n \times m$ matriz
$$\left(\nabla\mathbf{f}\right)=\left(\begin{matrix}\frac{\partial f_1}{\partial x_1}&&\cdots&&\frac{\partial f_m}{\partial x_1}\\\vdots&&\ddots&&\vdots\\\frac{\partial f_1}{\partial x_n}&&\cdots&&\frac{\partial f_m}{\partial x_n}\end{matrix}\right)$$
Nótese, al menos con respecto a los conjuntos de bases estándar, que el gradiente es la transposición de la derivada total.
La variación de la función $\mathbf{f}$ en $\mathbf{x_0}$ en la dirección del vector unitario $\mathbf{u} \in \mathbb{R}^n$ es decir, la derivada direccional de $\mathbf{f}$ , denotado por $\mathrm{D}_\mathbf{u}\mathbf{f}\left(\mathbf{x_0}\right)$ es un vector en $\mathbb{R}^m$ dada por la aplicación de la derivada total sobre $\mathbf{u}$ ,
$$\mathrm{D}_\mathbf{u}\mathbf{f}\left(\mathbf{x_0}\right)=\mathrm{d}_\mathbf{x_0}\mathbf{f}\mathbf{u}$$
En el caso especial de $m=1$ es decir, una función de valor escalar, el lado derecho de la ecuación anterior es un producto de a $1\times n$ matriz y una $n\times1$ matriz, dando lugar a un escalar. Sucede que, en este caso particular, el producto de la matriz es igual también al producto punto del gradiente de la función y el vector unitario. Por eso cuando se habla de funciones escalares los libros de texto siempre relacionan el gradiente con la derivada direccional mediante el producto punto como regla de cálculo. Sin embargo, no podemos generalizar directamente la regla del producto puntual a las funciones de valor vectorial.
Sobre su apéndice, si utilizamos el producto tensorial de los vectores base de dos espacios vectoriales como base para expresar una transformación lineal entre estos dos espacios vectoriales, debemos tener cuidado con las dimensiones. De hecho, en el análisis tensorial ya tenemos una definición rigurosa y general. Pero aquí supongamos que redefinimos algo sólo para el propósito específico descrito por esta pregunta.
Dejemos que $\mathcal{V}_n$ denotan un $n$ -espacio vectorial en $\mathbb{R}$ . Una transformación lineal $\mathbf{A}:\mathcal{V}_n\rightarrow\mathcal{W}_m$ tiene su $m\times n$ representación matricial $A_{ji}$ bajo conjuntos de bases $\left\{\mathbf{\hat{e}}_i\right\}\in\mathcal{V}_n$ y $\left\{\mathbf{\hat{f}}_i\right\}\in\mathcal{W}_m$ se puede obtener actuando sobre el primero mediante $\mathbf{A}$ para dar $n$ vectores $\mathbf{u}_i=A_{ji}\mathbf{\hat{f}}_j $ . Al actuar sobre un vector $\mathbf{c}\in\mathcal{V}_n$ obtenemos $\mathbf{d}\in\mathcal{W}_m$ , $\mathbf{d}=\mathbf{Ac}$ . Bajo el conjunto de bases tenemos el cálculo matricial de esta transformación
$$\left(\begin{matrix}d_1\\\vdots\\d_m\end{matrix}\right)=\left(\begin{matrix}A_{11}&&\cdots&&A_{1n}\\\vdots&&&&\vdots\\A_{m1}&&\cdots&&A_{mn}\end{matrix}\right)\left(\begin{matrix}c_1\\\vdots\\c_n\end{matrix}\right)$$
o $d_j=A_{ji}c_i$ .
Por otro lado, si bajo una determinada definición de producto tensorial de dos vectores, el producto tensorial de $\mathbf{v}\in\mathcal{V}_n$ y $\mathbf{w}\in\mathcal{W}_m$ se expresa con respecto a los mismos conjuntos de bases que $\mathbf{v}\otimes\mathbf{w}=v_i w_j \mathbf{\hat{e}}_i\otimes\mathbf{\hat{f}}_j$ el tensor resultante corresponde al $n\times m$ representación matricial $v_iw_j$ . Para construir un tensor que pueda actuar sobre vectores de $\mathcal{V}_n$ por $\mathbf{v}$ y $\mathbf{w}$ tenemos que usar $\mathbf{w}\otimes\mathbf{v}$ .
Por lo tanto, para expresar la transformación lineal $\mathbf{A}$ por los dos conjuntos de bases, debe ser de la forma $\mathbf{A}=A^\prime_{ij}\mathbf{\hat{f}}_i\otimes\mathbf{\hat{e}}_j$ . Para ver la relación entre los dos $m\times n$ matrices $A_{ji}$ y $A^\prime_{ij}$ aplicamos de nuevo sobre el vector $\mathbf{c}$ esta vez utilizando la expresión con $A^\prime_{ij}$ y exigiendo que los resultados sean $\mathbf{d}$ . Obtenemos en este caso $\mathbf{d}=A^\prime_{ij}c_k\left(\mathbf{\hat{f}}_i\otimes\mathbf{\hat{e}}_j\right)\mathbf{\hat{e}}_k$ .
Para proceder necesitamos una postulación adicional en la presente discusión, que es una regla que
$$\left(\mathbf{w}\otimes\mathbf{v}\right)\mathbf{c}=\mathbf{w}\left(\mathbf{v}\cdot\mathbf{c}\right)$$
Entonces, $\mathbf{d}=A^\prime_{ij}c_k\left(\mathbf{\hat{f}}_i\otimes\mathbf{\hat{e}}_j\right)\mathbf{\hat{e}}_k=A^\prime_{ij}c_k\mathbf{\hat{f}}_i\left(\mathbf{\hat{e}}_j\cdot\mathbf{\hat{e}}_k\right)$ . De nuevo tenemos que terminar aquí, salvo en el caso especial de que $\left\{\mathbf{\hat{e}}_i\right\}$ es un conjunto de bases ortonormales. En este caso $\mathbf{d}=A^\prime_{ij}c_j\mathbf{\hat{f}}_i$ o $d_i=A^\prime_{ij}c_j$ . Por una comparación y cuidado en los subíndices sabemos que $A^\prime_{ij}=A_{ij},i=1,\cdots,n,j=1,\cdots,m$ .
Ahora podemos concluir que la transformación lineal $\mathbf{A}:\mathcal{V}_n\rightarrow\mathcal{W}_m$ puede expresarse con respecto a conjuntos de bases ortonormales $\left\{\mathbf{\hat{e}}_i\right\}\in\mathcal{V}_n$ y $\left\{\mathbf{\hat{f}}_i\right\}\in\mathcal{W}_m$ como $\mathbf{A}=A_{ij}\mathbf{\hat{f}}_i\otimes\mathbf{\hat{e}}_j$ en virtud de la norma $\left(\mathbf{w}\otimes\mathbf{v}\right)\mathbf{c}=\mathbf{w}\left(\mathbf{v}\cdot\mathbf{c}\right)$ .
Así que la derivada (total) de la función $\mathbf{f}$ , $\mathrm{d}_\mathbf{x_0}\mathbf{f}$ es decir, la transformación lineal "correcta" que utilizamos para actuar sobre un vector unitario para obtener una derivada direccional, debe expresarse como $\mathrm{d}_\mathbf{x_0}\mathbf{f}=\frac{\partial f_i}{\partial x_j}\mathbf{\hat{b}}_i\otimes\mathbf{\hat{a}}_j$ (ya que las bases estándar son ortonormales).