Este es defender simultáneamente para algunos más riguroso notaciones y para una manera fácil de resolver estas preguntas mediante el uso tanto como sea posible las maravillas de álgebra lineal.
En primer lugar, si $U$ es una función definida en el $\mathbb R^n$ con valores en $\mathbb R$, la notación $\frac{d}{dx}U(x)$ es extraño al $n\geqslant2$ porque $\frac{d}{dx}$ generalmente denota el operador de la derivada aplicada a una función de$\mathbb R$$\mathbb R$. Por ejemplo, si $u$ se define en $\mathbb R$$u(x)=\mathrm e^{x^2}$, sé que $\frac{d}{dx}u(x)=2x\mathrm e^{x^2}$ pero si $U$ se define en $\mathbb R^n$$U(x)=\mathrm e^{\|x\|^2}$, no sé el significado de la notación $\frac{d}{dx}U(x)$ al $n\geqslant2$.
Aquí, uno busca el gradiente $\nabla U(x)$$U$$x$. En la tranquila términos, $\nabla U(x)$ es un vector en $\mathbb R^n$ pero en realidad $\nabla U(x)$ es una forma lineal definido en $\mathbb R^n$ ($\mathbb R^n$ es el espacio vectorial tangente del colector $\mathbb R^n$$x$). Rigurosamente hablando, $\nabla U(x):\mathbb R^n\to\mathbb R$ se define por el hecho de que, para cada vector de $v$$\mathbb R^n$,
$$
\nabla U(x)(v)=\lim\limits_{h\to0}\frac1h(U(x+hv)-U(x)),
$$
si el límite existe. De esta forma se define una función lineal $\nabla U(x):\mathbb R^n\to\mathbb R$ y la identificación de esta función con un elemento $w$ $\mathbb R^n$ llega a través de la identificación del espacio de la tangente del colector $\mathbb R^n$ $x$ con el espacio vectorial $\mathbb R^n$ a través de la elección de un vector de la base. Esta base $B$ define un producto escalar en $\mathbb R^n$ $(v_1,v_2)\mapsto v_1^Tv_2$ gracias a la descomposición de los $v_1$$v_2$$B$, y se obtiene la relación
$$
\nabla U(x)(v)=w^Tv.
$$
Un vector $w$ es a menudo denotado $w=\mathrm{grad}\ U(x)$ y el tanto $\nabla$ $\mathrm{grad}$ son pronunciado gradiente.
Por lo tanto la escritura $v$ $w$ en base a la $B$$v=(v_i)_i$$w=\left(\frac{\partial U}{\partial x_i}(x)\right)_i$, se obtiene
$$
\nabla U(x)(v)=w^Tv=\sum\limits_iw_iv_i=\sum\limits_i\frac{\partial U}{\partial x_i}(x)\ v_i.
$$
Para resumir todo lo anterior:
- Para calcular los $\nabla U(x)=w$ es escribir $U(x+hv)=U(x)+hw^Tv+o(h)$ por cada $v$ $\mathbb R^n$ al$h$$\mathbb R$$0$.
- El hecho de que $\nabla U(x)=w$ es equivalente al hecho de que $\nabla U(x)(v)=w^Tv$ para todos los vectores $v$, que es equivalente al hecho de que $\dfrac{\partial U}{\partial x_i}(x)=w_i$ por cada $i$.
Vamos ahora a calcular el gradiente de sus ejemplos. Vamos a hacer un uso intensivo del hecho de que para cada una de las matrices de $C$ $D$ de dimensiones adecuadas, $(CD)^T=D^TC^T$ y el hecho de que $z^T=z$ por cada $1\times1$ matriz (también conocido como un número), pero de bastante mucho nada más. Aquí vamos.
Si $U(x)=b^TAx$, $U(x+hv)-U(x)=h(b^TAv)=h(A^Tb)^Tv$ por lo tanto $\nabla U(x)=A^Tb$.
Si $U(x)=x^TAb$, $U(x+hv)-U(x)=h(v^TAb)=h(Ab)^Tv$ por lo tanto $\nabla U(x)=Ab$.
Si $U(x)=x^TAx$, $U(x+hv)-U(x)=h(v^TAx+x^TAv)+h^2v^TAv$ por lo tanto $\nabla U(x)(v)=v^TAx+x^TAv=(Ax)^Tv+(A^Tx)^Tv$ por lo tanto $\nabla U(x)=Ax+A^Tx=(A+A^T)x$.
Para transformar estas consideraciones en algunas fórmulas concretas, nos vamos a calcular las coordenadas de la gradiente en los casos 1. y 3. En el caso 1., uno se
$$
\frac{\partial U}{\partial x_i}(x)=(A^Tb)_i=\sum\limits_j(A^T)_{ij}b_j=\sum\limits_jA_{ji}b_j,
$$
y en el caso 3.,
$$
\frac{\partial U}{\partial x_i}(x)=((a+a^T)x)_i=\sum\limits_j(a+a^T)_{ij}x_j=\sum\limits_j(A_{ij}+A_{ji})x_j.
$$