4 votos

La intuición detrás de "Transpose Matrix"

Me he encontrado con el diferencial $\frac{\partial \bf{w}}{\partial \bf{w}^T}$ muchas veces ahora, y noto que es equivalente al operador de transposición. Es decir, si tenemos algo de la forma $\bf{A}\frac{\partial w}{\partial w^T}$ podemos reescribirlo como $\bf{A}^T$ siempre que las dimensiones de $\bf{A}$ y $\frac{\partial \bf{w}}{\partial \bf{w}^T}$ de acuerdo.

Intuitivamente, el cambio de $\bf{w}$ con respecto a $\bf{w}^T$ es una transposición. ¿Es válida mi intuición y hay alguna forma de probarlo?

$\bf{EDIT1}$ : Para aclarar, $\bf{A}$ es una matriz mientras que $\bf{w}$ y $\bf{w}^T$ son vectores. El vector $\bf{w}$ se toma como un vector de la columna de dimensión $n$ y $\bf{A}$ se toma como un $n \times n$ matriz. A partir de esto tenemos que $\frac{\partial \bf{w}}{\partial \bf{w}^T}$ es un $n \times n$ matriz $\bf{W}$ donde $W_{ij} = \frac{\partial \bf{w}_i}{\partial \bf{w}^T_j}$ . La pregunta que sigue ahora es, ¿por qué $\bf{W}$ actuar como operador de transposición en $\bf{A}$ ?

$\textbf{EDIT2:}$ Para dar un ejemplo, cuando la computación $\nabla_\bf{w}$ MSE $_{\text{train}}$ en este puesto (última respuesta), el autor tiene un paso que va desde $\bf{wX^TX}\frac{\partial \bf{w}}{\partial \bf{w}^T}$ a $(\bf{wX^TX})^T$

0voto

Lamentablemente, no hay ninguna intuición que aprender, sólo que el cálculo diferencial de la matriz tiene una notación inconsistente .

No vería $\frac{\partial w}{\partial w}$ como algo que "hace transposición": el resultado que mencionas se deriva de la linealidad de la diferenciación y de la utilización de la convención de denominadores .

Por la linealidad de la diferenciación, $$A \frac{\partial w}{\partial w} = \frac{\partial A w}{\partial w}$$

Si seguimos la convención de los numeradores, esta es la matriz jacobina de la función lineal $Aw$ que es una matriz cuya $i,j$ El elemento es $$\frac{\partial A_i^T w}{\partial w_j} ,$$ donde $A_i^T$ es el $i$ la fila de $A$ . Entonces.., $$\left[\frac{\partial A w}{\partial w}\right]_{i,j} =\frac{\partial }{\partial w_j} \sum_{k=1}^m A_{i,k}w_k=A_{i,j},$$ donde $A_i^T$ es el $i$ la fila de $A$ así que $$A \frac{\partial w}{\partial w} = A.$$

Si en lugar de eso seguimos la convención del denominador, entonces su expresión significa el gradiente de la función lineal $Ax$ que es la matriz cuya $i,j$ El elemento es

$$\frac{\partial A_j^T w}{\partial w_i}$$ Luego $$\left[\frac{\partial A w}{\partial w}\right]_{i,j} =\frac{\partial }{\partial w_i} \sum_{k=1}^m A_{j,k}w_k = A_{j,i},$$ así que $$A \frac{\partial w}{\partial w} = A^T.$$

El hecho de que el autor utilice un vector transpuesto en el denominador parece indicar la convención del numerador, sin embargo el resultado transpuesto insinúa una convención del denominador. ¡Realmente confuso!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X