24 votos

¿Cuál es la interpretación intuitiva de la transposición frente a la inversa?

He estado pensando acerca de esta pregunta ya por un largo tiempo y sólo he encontrado de nuevo en el siguiente lema:

$$f(x) = g(Ax + b) \implies \nabla f = A^T \nabla g(Ax + b) $$

Este lema hace sentido intuitivo si usted piensa en ello como la toma de la $x$ a el espacio de $Ax$, el cálculo de la pendiente y, a continuación, tomar el resultado de vuelta al espacio original. Pero, ¿por qué "se está llevando el resultado a" realizadas a $A^T$ e no $A^{-1}$?

Haciendo los cálculos que usted obtenga $A^T$, sin duda, pero creo que siempre se espera una relación inversa. En general, cuando debo esperar una transposición y cuando una inversa? De dónde son similares y donde se diferencian?

19voto

Studer Puntos 1050

A menudo vemos que las matrices como transformaciones lineales. La inversa de a $A$, cuando existe, significa simplemente "invertir" lo $A$ lo hace como una función. La transposición se origina en un punto de vista diferente.

Así tenemos espacios vectoriales $X,Y$, e $A:X\to Y$ es lineal. Por muchas razones, a menudo nos fijamos en el lineal funcionales en el espacio; de esta manera obtenemos el doble $$ X^*=\{f:X\to\mathbb R:\ f\ \text{ es lineal}\}, $$ y, en consecuencia,$Y^*$. Ahora el mapa $A$ induce un natural mapa de $A^*:Y^*\to X^*$, por $$ (A^*g)(x)=g(Ax). $$ En el caso particular donde $X=\mathbb R^n$, $Y=\mathbb R^m$, uno puede comprobar que $X^*=X$$Y^*=Y$, en el sentido de que todos los funcionales lineales $f:\mathbb R^n\to\mathbb R$ son de la forma $f(x)=y^Tx$ fijos $y\in\mathbb R^n$. En esta situación, $A$ $m\times n$ de la matriz y la matriz de $A^*$ es la transpuesta de a $A$.

10voto

S.Micheals Puntos 106

Algo raro está pasando aquí. Estoy asumiendo $g: \mathbb R^m \to \mathbb R$ e decir $A$ $m\times n$ matriz. Deje $\mathcal a(x): \mathbb R^n \to \mathbb R^m, x \mapsto Ax + b$ la correspondiente transformación afín, por lo que el $f = g \circ a$. La regla de la cadena dice $Df(x) = Dg(a(x)) Da(x)$.

El Jacobiano de la realización de la $Dg$ $\nabla g$ $1\times m$ matriz (vector fila), mientras que el Jacobiano para$a$$A$, $m \times n $ matriz. Todas las dimensiones están de acuerdo, ya que esto $\nabla f$ $1\times n$ de la matriz, lo cual está de acuerdo con la noción de que la derivada de $f$ es lineal en el mapa de $\mathbb R^n \to \mathbb R$.

Así que lo que sospecho que está pasando es que algunos de identificación de $\mathbb R^n$ con su doble espacio debajo de la Euclidiano interior del producto; es decir, se está haciendo realidad el gradiente de un vector de columna en lugar de un vector de fila. La transposición es precisamente la forma en que esta se realiza. Si $T: V \to W$ es una transformación lineal, entonces su adjunto es $T^\dagger: W^* \to V^*$. Pero en virtud de la Euclidiano interior del producto, se puede identificar a $\mathbb R^n \cong (\mathbb R^n)^*$, por lo que $$ (\nabla g(a(x)) A)^T = A^T [\nabla g(a(x))]^T = A^T \nabla g(a(x))$$ donde estamos abusando de la notación, identificando el vector de fila $\nabla g$ con el vector de columna $\nabla g$. Esto oculta la identificación es probable que lo que es confuso.

8voto

Michael Hoppe Puntos 5673

Aviso de uso de la regla de la cadena $$D_p g(Av+b)=\langle\nabla g(Ap+b),Av\rangle=\langle A^T\nabla g(Ap+b),v\rangle.$ $ compararemos a $D_pf(v)=\langle\nabla f(p),v\rangle$.

4voto

Yves Daoust Puntos 30126

Aquí no "toman el resultado nuevamente al espacio original", son encadenamiento transforma.

Si usted piensa en una transformación lineal aplicada a un vector, es un montón de productos, de las filas de la matriz por el vector de la columna y

$$\vec x\cdot\vec y\equiv x^Ty.$$

4voto

Tomando el derivado direccional de $f (\mathrm x) := g (\mathrm A \mathrm x + \mathrm b)$ en la dirección de $\rm v$ $\rm x$,

$$\lim_{h \to 0} \frac{f (\mathrm x + h \mathrm v) - f (\mathrm x)}{h} = \langle \nabla g (\mathrm A \mathrm x + \mathrm b), \mathrm A \mathrm v \rangle = \langle \mathrm A \mathrm v, \nabla g (\mathrm A \mathrm x + \mathrm b) \rangle = \langle \mathrm v, \mathrm A^\top \nabla g (\mathrm A \mathrm x + \mathrm b) \rangle$$

y, por lo tanto, el gradiente de $f$

$$\nabla f (\mathrm x) = \mathrm A^\top \nabla g (\mathrm A \mathrm x + \mathrm b)$$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X