45 votos

No derivado de la comprensión de un producto de la matriz.

Estoy tratando de averiguar una la derivada de una multiplicación matriz-matriz, pero fue en vano. Este documento parece que me muestre la respuesta, pero estoy teniendo un tiempo difícil de análisis y comprensión de la misma.

Aquí está mi problema: Tenemos $\mathbf{D} \in \Re^{m n}$, $\mathbf{W} \in \Re^{m q}$, y $\mathbf{X} \in \Re^{q n}$. Además, $\mathbf{D} = \mathbf{W}\mathbf{X}$. (NO es un elemento sabio multiplicación normal de la matriz-matriz de multiplicar).

Estoy tratando de obtener la derivada de la $\mathbf{D}$, w.r.t $\mathbf{W}$, y el derivado de la $\mathbf{D}$, w.r.t $\mathbf{X}$.

Mi clase esta nota está tomada desde lo que parece indicar que:

$$\frac{\delta \mathbf{D}}{\delta \mathbf{W}} = \mathbf{X}^{T}, \text{and that} \frac{\delta \mathbf{D}}{\delta \mathbf{X}} = \mathbf{W}^{T} $$,

pero yo soy pisos de cómo se derivó esta. Además, en la toma de los derivados, nos preguntamos cómo cada elemento en $\mathbf{D}$ cambios con las perturbaciones de cada elemento, digamos, $\mathbf{X}$, - entonces, ¿no la resultante de las combinaciones de golpe a ser mucho más de lo $\mathbf{W}^{T}$ tiene? No puedo ni siquiera ver cómo la dimensionalidad es justo aquí.

EDIT: me gustaría agregar el contexto de esta pregunta. Viene de aquí, y aquí está mi marcados captura de pantalla de mi problema. ¿Cómo se derivan los términos? (Nota: entiendo que la cadena la regla de aspecto, y no estoy preguntando sobre eso. Estoy preguntando por el simple paso intermedio).

enter image description here

Gracias.

35voto

Para la primera pregunta solo (sin contexto) voy a probar otra cosa primero (a continuación, comprobar el $\boxed{\textbf{EDIT}}$ por lo que se le pide):

Supongamos que tenemos tres matrices $A,X,B$ que son $n\times p$, $p\times r$, y $r\times m$ respectivamente. Cualquier elemento $w_{ij}$ de su producto $W=AXB$ se expresa por:

$$w_{ij}=\sum_{h=1}^r\sum_{t=1}^pa_{it}x_{th}b_{hj}$$ Entonces podemos demostrar que: $$s=\frac {\partial w_{ij}}{\partial x_{dc}}=a_{id}b_{cj}$$ (porque todos los términos, se espera que el uno multiplicado por $x_{dc}$, se desvanecen)

Uno podría deducir (en un casi de manera sencilla) que la matriz $S$ es el producto de Kronecker de $B^T$ $A$ así que:$$\frac {\partial AXB}{\partial X}=B^T⊗A$$

La sustitución de cualquiera de las $A$ o $B$ con la correspondiente matriz de identidad, le da la derivada desea.

$$\boxed{\textbf{EDIT}}$$

Al leer el artículo agregado (y después de dormir un poco!), Me he dado cuenta de que $dD$ no $\partial D$ en su notación, sino $\dfrac {\partial f}{\partial D}$ donde $f$ es una cierta función de $W$ $X$ mientras $D=WX$. Esto significa que la primera expresión que está teniendo problemas con es $$\frac{\partial f}{\partial W}=\frac{\partial f}{\partial D}X^T$$ Desde el autor al principio declaró que él tendría que utilizar la expresión incorrecta "gradiente" algo para decir "derivadas parciales" con respecto a la misma cosa. Por lo que cualquier elemento de a $\partial f/\partial W$ puede ser escrito como $\partial f/\partial W_{ij}$. Y cualquier elemento de $D$: $$D_{ij}=\sum_{k=1}^qW_{ik}X_{kj}$$

Podemos escribir $$df=\sum_i\sum_j \frac{\partial f}{\partial D_{ij}}dD_{ij}$$ $$\frac{\partial f}{\partial W_{dc}}=\sum_j \frac{\partial f}{\partial D_{dj}}\frac{\partial D_{dj}}{\partial W_{dc}}$$

Debido a que el producto $D=WX$, tenemos $$\frac{\partial D_{dj}}{\partial W_{dc}}=X_{cj}$$ and so $$\frac{\partial f}{\partial W_{dc}}=\sum_j \frac{\partial f}{\partial D_{dj}}X_{cj}$$ $$\frac{\partial f}{\partial W_{dc}}=\sum_j \frac{\partial f}{\partial D_{dj}}X_{jc}^T$$

Esto significa que la matriz $\partial f/\partial W$ es el producto de $\partial f/\partial D$$X^T$. Creo que esto es lo que estamos tratando de entender, y lo que se le pide en el último párrafo de la captura de pantalla. También, como en el siguiente párrafo después de la captura de pantalla de sugerencias, que podría haber empezado con pequeñas matrices para resolver esto antes de darse cuenta de que el patrón, y la generalización de como he intentado hacer directamente en la anterior prueba. El mismo razonamiento prueba que la segunda expresión, así...

3voto

boyangumn Puntos 11

Se nota que no es correcta, se perdió el rastro de la función, es decir,$\frac{\partial tr(XA) }{\partial X} = A^T$, compruebe el 'Derivado de huellas' de la sección de la Matriz de libro de cocina.

Habiendo dicho eso, la confusión aquí es que usted está tratando de tomar la derivada de w.r.t. una matriz de una MATRIZ de valores de la función, el resultado debe ser una de cuatro vías tensor (matriz). Si usted consulta la Matriz libro de cocina, que siempre habla de la función con valores ESCALARES. Así que supongo que te perdiste algunas de las funciones aquí alrededor de D, tal vez det (a) o trace(). De lo contrario, usted tiene que tomar la derivada de cada elemento de D, el cual le dará una matriz para cada elemento.

1voto

Dadas $\mathrm A \in \mathbb R^{m \times n}$, definimos $f : \mathbb R^{n \times p} \to \mathbb R^{m \times p}$ por

$$f (\mathrm X) := \mathrm A \mathrm X$$

Es el derivado direccional de $f$ en la dirección de $\mathrm V$ $\mathrm X$

$$D{\mathrm V} f (\mathrm X) = \lim{h \to 0} \frac{1}{h} \left( f (\mathrm X + h \mathrm V) - f (\mathrm X) \right) = \mathrm A \mathrm V$$

Si definimos $\langle \mathrm A, \mathrm B \rangle := \mathrm A^T \mathrm B$, entonces el $D{\mathrm V} f (\mathrm X) = \mathrm A \mathrm V = \langle \mathrm A^T, \mathrm V \rangle$. Por lo tanto, $\nabla{\mathrm X} f (\mathrm X) = \mathrm A^T$.

1voto

user115350 Puntos 36

Creo que la nota no es correcta.

$$f{ij}=w{ik}x_{kj}$$

$$\frac{\partial {f{ij}}}{\partial {w{mn}}}=tr(M)$$ where M is a block matrix and its diagonal is $X ^ T$ y su matriz de otro elemento es la matriz nula.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X