2 votos

¿Por qué se mantiene esta derivación vectorial?

Tengo las siguientes variables/matrices:

$$A \in \mathbb{R}^{m \times n} , \quad p \in \mathbb{R}^{n}, \quad \Sigma \in \mathbb{R}^{m \times m}, \quad w \in \mathbb{R}^{m}$$

donde $\Sigma$ es una matriz diagonal. Con ellas definimos la función $S(p)$ como $$S(p) = (w + Ap)^{T} \Sigma^{-1} (w + Ap)$$

Como queremos encontrar el mínimo de $S(p)$ calculamos la primera derivación con respecto a $p$ Según la solución de mi maestro, esto es $$\nabla S(p) = 2(Ap + w)^{T} \Sigma^{-1} A \overset{!}{=} 0$$

Sin embargo, no entiendo cómo llegan a esta solución, ¿podría alguien explicar los pasos intermedios?

2voto

ColtonCat Puntos 473

Veamos la derivada con respecto a la primera coordenada.

Primero aplicamos la regla del producto. Luego observamos que la expresión es un escalar, por lo que también podemos escribirla como una transposición. La transposición de un escalar es trivialmente lo mismo que el escalar.

\begin{aligned}\frac{\partial}{\partial x} S(p) &= \frac{\partial}{\partial x}\left( (w+Ap)^T \Sigma^{-1} (w+Ap) \right) \\ &= \left(\frac{\partial}{\partial x}(w+Ap)\right)^T \Sigma^{-1} (w+Ap) + (w+Ap)^T \Sigma^{-1} \frac{\partial}{\partial x}(w+Ap) \\ &= \left(\left(\frac{\partial}{\partial x}(w+Ap)\right)^T \Sigma^{-1} (w+Ap)\right)^T+ (w+Ap)^T \Sigma^{-1} \frac{\partial}{\partial x}(w+Ap) \\ &= (w+Ap)^T \Sigma^{-1} \frac{\partial}{\partial x}(w+Ap)+ (w+Ap)^T \Sigma^{-1} \frac{\partial}{\partial x}(w+Ap) \\ &= 2 (w+Ap)^T \Sigma^{-1} \frac{\partial}{\partial x}(w+Ap) \\ &= 2 (w+Ap)^T \Sigma^{-1} (A\hat x) \end{aligned}

De forma más general, podemos escribir esto como $$\nabla_i S(p) = 2 (w+Ap)^T \Sigma^{-1} (A e_i)$$ O: $$\nabla S(p) = 2 (w+Ap)^T \Sigma^{-1} (A I) = 2 (w+Ap)^T \Sigma^{-1} A$$

1voto

Random Jack Puntos 808

Creo que hay una errata " $\Sigma \in \mathbb{R}^{m \times n}$ ". Debe ser " $\Sigma \in \mathbb{R}^{m \times m}$ "(ya que en la definición de $S(p)$ se multiplica por los vectores de la misma dimensión de ambos lados). Utilice las siguientes reglas de derivación de vectores ( $\langle \cdot, \cdot \rangle$ es el producto punto en $\mathbb{R}^n$ ):

  1. $\nabla_p \langle p, c \rangle = c$ , donde $c \in \mathbb{R}^n$ es una constante (con respecto a $p$ ) vector.

  2. $\nabla_p \langle Ap, p \rangle = (A + A^T)p$ , donde $A \in \mathbb{R}^{n\times n}$ es una constante (con respecto a $p$ ).

  3. $\langle x, y \rangle = x^T y$ .

Así que podemos escribir

$S(p) = \langle \Sigma^{-1}(w + Ap), (w + Ap)\rangle = \langle \Sigma^{-1}w, w \rangle + \langle \Sigma^{-1}w, Ap \rangle + \langle \Sigma^{-1}Ap, w \rangle + \langle \Sigma^{-1}Ap, Ap \rangle = \{\Sigma \text{ is symmetric}\} = \langle \Sigma^{-1}w, w \rangle + 2 \langle A^T \Sigma^{-1}w, p\rangle + \langle A^T\Sigma^{-1}Ap, p\rangle.$

Por lo tanto (utilizando las reglas anteriores):

$\nabla_p S(p) = 2A^T\Sigma^{-1}w + (A^T\Sigma^{-1}A + (A^T\Sigma^{-1}A)^T)p = 2A^T\Sigma^{-1}w + 2A^T\Sigma^{-1}Ap = 2A^T\Sigma^{-1}(w + Ap) = (2(Ap + w)^T\Sigma^{-1}A)^T = 0.$

Transponiendo ambos lados obtenemos la igualdad de la solución de tu maestro.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X