En un ejemplo de análisis de componentes principales, mi libro de texto utiliza el cálculo vectorial para hacer lo siguiente:
$\nabla_{\mathbf{c}}(-2\mathbf{x}^T \mathbf{D} \mathbf{c} + \mathbf{c}^T \mathbf{c}) = \mathbf{0}$
$\rightarrow -2\mathbf{D}^T \mathbf{x} + 2\mathbf{c} = \mathbf{0}$
$\rightarrow c = \mathbf{D}^T \mathbf{x}$
Dónde $\nabla_{\mathbf{c}}$ es el gradiente con respecto a $\mathbf{c}$ , $\mathbf{D} \in \mathbb{R}^{n \times l}$ , $\mathbf{c} \in \mathbb{R}^l$ y las columnas de $\mathbf{D}$ son ortogonales entre sí.
Tengo las siguientes preguntas:
-
¿Cómo llegaron los autores de $\mathbf{x}^T \mathbf{D} \mathbf{c}$ a $\mathbf{D}^T \mathbf{x}$ ? No he estudiado cálculo matricial, pero supongo que $\dfrac{ \partial }{\partial{\mathbf{c}}} \mathbf{c} = I$ ? ¿Qué pasa con $\mathbf{x}^T \mathbf{D}$ a $\mathbf{D}^T \mathbf{x}$ ?
-
¿Cómo pasaron los autores de $\mathbf{c}^T \mathbf{c}$ a $2\mathbf{c}$ ? He encontrado lo siguiente en Diferenciación de matrices por Randal J. Barnes:
Si suponemos que $\mathbf{A} = I$ ¿no es esto lo que buscamos? Pero eso no nos dejaría con $2\mathbf{c}^T$ en lugar de $2\mathbf{c}$ ?
Agradecería mucho que la gente se tomara la molestia de aclararlo.