15 votos

Derivada de la matriz $(Ax-b)^T(Ax-b)$

Estoy tratando de encontrar el mínimo de $(Ax-b)^T(Ax-b)$ pero no estoy seguro de si estoy tomando la derivada de esta expresión correctamente.

Lo que hice es lo siguiente: \begin {align*} \frac { \delta }{ \delta x_i} \left ( \sum_i \sum_j (A_{ij}x_i-b_i)(A_{ij}x_j-b_j) \right )&= \sum_j A_{ij}(A_{ij}x_j-b_j) + \sum_i A_{ij}(A_{ij}x_j-b_i) \end {align*}

pero no estoy muy seguro de si esto es correcto y cuál sería entonces la derivada. Se agradece cualquier ayuda.

16voto

Silver Gun Puntos 25

Quizás se agradecería alguna ayuda para calcular las derivadas parciales. Siempre es mejor ser explícito cuando uno está un poco confundido con la notación pesada. Escribe $A = (a_{ij})$ , $x = (x_1,\dots,x_n)^{\top}$ y $b = (b_1,\dots, b_m)^{\top}$ , suponiendo que $A$ es un $m \times n$ matriz. Entonces la $i^{\text{th}}$ componente de $Ax-b$ es $$ (Ax-b)_i = \left( \sum_{j=1}^n a_{ij} x_j \right) - b_i $$ para que $$ (Ax-b)^{\top} (Ax-b) = \sum_{i=1}^m (Ax-b)_i^2 = \sum_{i=1}^m \left( \left( \sum_{j=1}^n a_{ij} x_j \right) - b_i \right)^2. $$ Supongamos que se quiere calcular la derivada con respecto a $x_k$ , $1 \le k \le n$ (Elijo $k$ porque elegir $i$ o $j$ sería confuso con los subíndices utilizados anteriormente). A continuación, $$ \frac{\partial}{\partial x_k} (Ax-b)^{\top} (Ax-b) = \sum_{i=1}^m \frac{\partial}{\partial x_k} \left( \left( \sum_{j=1}^n a_{ij} x_j \right) - b_i \right)^2 = \sum_{i=1}^m 2 \left( \left( \sum_{j=1}^n a_{ij}x_j \right) - b_i \right) (a_{ik}). $$ En particular, podemos dejar que $A_k = (a_{1k},a_{2k},\dots,a_{mk})$ para que $$ \frac{\partial}{\partial x_k} (Ax-b)^{\top} (Ax-b) = 2 \langle A_k, Ax-b \rangle $$ donde $\langle - , - \rangle$ denota el producto interno. Se pueden utilizar argumentos de convexidad para demostrar que cualquier punto crítico es un minimizador en este caso ; aunque se puede ver que el minimizador no siempre será único, incluso cuando $m=n$ ; basta con que $A$ ser singular para que esto ocurra.

Espero que eso ayude,

6voto

Dave Haynes Puntos 999

La derivación se simplifica mucho si tomamos la derivada con respecto a todo el $x$ de una sola vez:

$$\frac{\delta}{\delta x}(Ax-b)^T(Ax-b) \ \ = \ \ 2(Ax-b)^T\frac{\delta}{\delta x}(Ax-b) \ \ = \ \ 2(Ax-b)^TA$$

Esto se deduce de la regla de la cadena:

$$\frac{\delta}{\delta x}uv \ \ = \ \ \frac{\delta u}{\delta x}v+u\frac{\delta v}{\delta x}$$

Y que podemos intercambiar el orden del producto punto:

$$\frac{\delta}{\delta x}u^Tu \ \ = \ \ \frac{\delta u^T}{\delta x}u+u^T\frac{\delta u}{\delta x} \ \ = \ \ (\frac{\delta u}{\delta x})^Tu+u^T\frac{\delta u}{\delta x} \ \ = \ \ 2u^T\frac{\delta u}{x}$$

Acabo de aprender el cálculo matricial del Libro de cocina Matrix ayer, y me encanta :)

5voto

Igor Rivin Puntos 11326

Supongo que está tratando de minimizar $\langle A x -b, A x - b\rangle.$ Esto es siempre no negativo, por lo que si $A$ es no singular, entonces el mínimo es $0.$ En caso contrario, el $i$ -la componente del gradiente es

$$\langle A_i, Ax +b\rangle + \langle A x + b, A_i\rangle$$

Dónde $A_i$ es el $i$ -en la columna de $A.$ ¿Qué te dice esto?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X