Estoy tratando de averiguar una la derivada de una multiplicación matriz-matriz, pero fue en vano. Este documento parece que me muestre la respuesta, pero estoy teniendo un tiempo difícil de análisis y comprensión de la misma.
Aquí está mi problema: Tenemos $\mathbf{D} \in \Re^{m n}$, $\mathbf{W} \in \Re^{m q}$, y $\mathbf{X} \in \Re^{q n}$. Además, $\mathbf{D} = \mathbf{W}\mathbf{X}$. (NO es un elemento sabio multiplicación normal de la matriz-matriz de multiplicar).
Estoy tratando de obtener la derivada de la $\mathbf{D}$, w.r.t $\mathbf{W}$, y el derivado de la $\mathbf{D}$, w.r.t $\mathbf{X}$.
Mi clase esta nota está tomada desde lo que parece indicar que:
$$\frac{\delta \mathbf{D}}{\delta \mathbf{W}} = \mathbf{X}^{T}, \text{and that} \frac{\delta \mathbf{D}}{\delta \mathbf{X}} = \mathbf{W}^{T} $$,
pero yo soy pisos de cómo se derivó esta. Además, en la toma de los derivados, nos preguntamos cómo cada elemento en $\mathbf{D}$ cambios con las perturbaciones de cada elemento, digamos, $\mathbf{X}$, - entonces, ¿no la resultante de las combinaciones de golpe a ser mucho más de lo $\mathbf{W}^{T}$ tiene? No puedo ni siquiera ver cómo la dimensionalidad es justo aquí.
EDIT: me gustaría agregar el contexto de esta pregunta. Viene de aquí, y aquí está mi marcados captura de pantalla de mi problema. ¿Cómo se derivan los términos? (Nota: entiendo que la cadena la regla de aspecto, y no estoy preguntando sobre eso. Estoy preguntando por el simple paso intermedio).
Gracias.