Supongamos que la función vectorial f:Rn→Rm tiene la derivada (total) en x0∈Rn denotado por dx0f . Es una transformación lineal de Rn a Rm . Da el diferencial (total) de la función f en x0 como una función que mapea desde Rn a Rm aplicando a la variable vectorial x cerca de x0 para dar dx0f(x−x0) . Con respecto a los conjuntos de bases estándar {ˆai}ni=1 y {ˆbi}mi=1 de Rn y Rm respectivamente, la derivada total dx0f corresponde a la m×n matriz llamada matriz jacobiana
(dx0f)=(∂f1∂x1⋯∂f1∂xn⋮⋱⋮∂fm∂x1⋯∂fm∂xn),x0=xiˆai,f(x)=fi(x)ˆbi
Por otro lado, el gradiente de f donado por ∇f es una transformación lineal de Rm volver a Rn definida, con respecto a los mismos conjuntos de bases estándar, de modo que la matriz correspondiente de la misma es la n×m matriz
(∇f)=(∂f1∂x1⋯∂fm∂x1⋮⋱⋮∂f1∂xn⋯∂fm∂xn)
Nótese, al menos con respecto a los conjuntos de bases estándar, que el gradiente es la transposición de la derivada total.
La variación de la función f en x0 en la dirección del vector unitario u∈Rn es decir, la derivada direccional de f , denotado por Duf(x0) es un vector en Rm dada por la aplicación de la derivada total sobre u ,
Duf(x0)=dx0fu
En el caso especial de m=1 es decir, una función de valor escalar, el lado derecho de la ecuación anterior es un producto de a 1×n matriz y una n×1 matriz, dando lugar a un escalar. Sucede que, en este caso particular, el producto de la matriz es igual también al producto punto del gradiente de la función y el vector unitario. Por eso cuando se habla de funciones escalares los libros de texto siempre relacionan el gradiente con la derivada direccional mediante el producto punto como regla de cálculo. Sin embargo, no podemos generalizar directamente la regla del producto puntual a las funciones de valor vectorial.
Sobre su apéndice, si utilizamos el producto tensorial de los vectores base de dos espacios vectoriales como base para expresar una transformación lineal entre estos dos espacios vectoriales, debemos tener cuidado con las dimensiones. De hecho, en el análisis tensorial ya tenemos una definición rigurosa y general. Pero aquí supongamos que redefinimos algo sólo para el propósito específico descrito por esta pregunta.
Dejemos que Vn denotan un n -espacio vectorial en R . Una transformación lineal A:Vn→Wm tiene su m×n representación matricial Aji bajo conjuntos de bases {ˆei}∈Vn y {ˆfi}∈Wm se puede obtener actuando sobre el primero mediante A para dar n vectores ui=Ajiˆfj . Al actuar sobre un vector c∈Vn obtenemos d∈Wm , d=Ac . Bajo el conjunto de bases tenemos el cálculo matricial de esta transformación
(d1⋮dm)=(A11⋯A1n⋮⋮Am1⋯Amn)(c1⋮cn)
o dj=Ajici .
Por otro lado, si bajo una determinada definición de producto tensorial de dos vectores, el producto tensorial de v∈Vn y w∈Wm se expresa con respecto a los mismos conjuntos de bases que v⊗w=viwjˆei⊗ˆfj el tensor resultante corresponde al n×m representación matricial viwj . Para construir un tensor que pueda actuar sobre vectores de Vn por v y w tenemos que usar w⊗v .
Por lo tanto, para expresar la transformación lineal A por los dos conjuntos de bases, debe ser de la forma A=A′ijˆfi⊗ˆej . Para ver la relación entre los dos m×n matrices Aji y A′ij aplicamos de nuevo sobre el vector c esta vez utilizando la expresión con A′ij y exigiendo que los resultados sean d . Obtenemos en este caso d=A′ijck(ˆfi⊗ˆej)ˆek .
Para proceder necesitamos una postulación adicional en la presente discusión, que es una regla que
(w⊗v)c=w(v⋅c)
Entonces, d=A′ijck(ˆfi⊗ˆej)ˆek=A′ijckˆfi(ˆej⋅ˆek) . De nuevo tenemos que terminar aquí, salvo en el caso especial de que {ˆei} es un conjunto de bases ortonormales. En este caso d=A′ijcjˆfi o di=A′ijcj . Por una comparación y cuidado en los subíndices sabemos que A′ij=Aij,i=1,⋯,n,j=1,⋯,m .
Ahora podemos concluir que la transformación lineal A:Vn→Wm puede expresarse con respecto a conjuntos de bases ortonormales {ˆei}∈Vn y {ˆfi}∈Wm como A=Aijˆfi⊗ˆej en virtud de la norma (w⊗v)c=w(v⋅c) .
Así que la derivada (total) de la función f , dx0f es decir, la transformación lineal "correcta" que utilizamos para actuar sobre un vector unitario para obtener una derivada direccional, debe expresarse como dx0f=∂fi∂xjˆbi⊗ˆaj (ya que las bases estándar son ortonormales).