1 votos

Regla del producto para las matrices, ¿considerarlas como vectores o no?

Tengo dificultades para interpretar una igualdad en un par de apuntes de clase( http://www.matematik.lu.se/matematiklu/personal/sigma/Riemann.pdf ).

Se encuentra en la página $52$ y tiene el siguiente aspecto,

$\frac{d}{dt}(df_{e^{tY_{I}}}(e^{tY_{I}}\cdot X_{I}))\mid_{t=0}=df_{I}^{2}(Y_{I},X_{I})+df_{I}(Y_{I}\cdot X_{I})$ .

En cuanto a la notación

$f:GL_{n}(\mathbb{R}) \rightarrow \mathbb{R}$ es una función suave definida localmente alrededor de $I$

$Y_{I}$ y $X_{I}$ son vectores tangentes en $I$

$e^{tY_{I}}$ representa una curva a través de $I$ con la derivada $Y_{I}$ en $I$ .

Está claro que hay algún tipo de regla de producto en el trabajo, sin embargo no puedo darle sentido. No sé si es preferible pensar en los objetos como matrices o vectores para que las cosas sumen bien, tampoco sé cómo pensar en el hessiano aquí como una función de dos vectores tangentes.

He visto algunas explicaciones que implican conexiones, pero esto no se ha introducido todavía.

1voto

HWV Puntos 1

Esta pregunta no tiene nada que ver con la geometría de Riemann; todo lo que se necesita es un tratamiento sistemático del cálculo multivariable. Tienes razón, hay una especie de regla del producto generalizada en juego (que es una consecuencia de la regla de la cadena multidimensional). Para la comprensión geométrica puede ayudar pensar en ellos como vectores tangentes, pero para entender el cálculo diferencial, no importa; lo que es más importante es un firme conocimiento del álgebra lineal para que las siguientes construcciones sean fáciles de digerir. Recomiendo encarecidamente la lectura del libro de Loomis y Sternberg Cálculo avanzado Capítulo $3$ en concreto, para obtener más detalles sobre todo lo que digo (de ahí viene la mayor parte de mi comprensión).

En primer lugar, debemos establecer algunas nociones preliminares. Sea $V,W$ sean espacios reales de Banach, y sea $A$ sea un subconjunto abierto de $V$ . Para lo que sigue, la dimensión finita no simplifica ninguna de las afirmaciones; pero si quieres asumirla, adelante. Sea $f:A \to W$ sea una función. Supongo que sabes lo que significa para $f$ sea (Frechet) diferenciable en un punto $\alpha \in A$ (en caso contrario, véase el apartado 3.6). Supongamos que $f$ es diferenciable en cada punto de $A$ . Entonces, obtenemos una nueva función \begin{equation} df: A \to L(V,W), \qquad \alpha \mapsto df_{\alpha} \end{equation} Esta nueva función no es nada demasiado complicado; es sólo un mapa desde un subconjunto abierto de un espacio de Banach a otro espacio de Banach, por lo que podemos preguntar si esta función es diferenciable en un punto $\alpha \in A$ . Si lo es, denotamos su derivada en $\alpha$ por $d(df)_{\alpha} \equiv d^2f_{\alpha}$ ( $\equiv$ sólo significa que son notaciones diferentes para la misma cosa). Obsérvense los espacios entre los que se sitúa el segundo diferencial, $d^2f_{\alpha}: V \to L(V,W)$ lo que significa que es un elemento de $L\left(V, L(V,W) \right)$ .

Has preguntado cómo se puede interpretar "el hessiano como una función de dos vectores tangentes". Para ello, observa que existe un isomorfismo natural entre $L(V, L(V,W))$ que es el espacio de los mapas lineales de $V$ en $L(V,W)$ y $L^2(V;W)$ el espacio de los mapas bilineales de $V \times V$ en $W$ . El isomorfismo se da de la siguiente manera: $\Phi: L(V,L(V,W)) \to L^2(V;W)$ , \begin{equation} \Phi(T)[\xi, \eta] = \left(T(\xi) \right)(\eta) \end{equation} Así que el significado de esto es que $d^2f_{\alpha}$ es actualmente una función lineal de una variable, y su salida es una transformación lineal, y por lo tanto puede "comer" otro vector. Esto es "equivalente" a un nuevo objeto, $\Phi(d^2f_{\alpha})$ que se "come" dos vectores simultáneamente y es bilineal. Dado que el isomorfismo $\Phi$ es tan natural, que lo suprimiremos y abusaremos ligeramente de la notación, y cambiaremos de un lado a otro entre $d^2f_{\alpha}$ y $\Phi(d^2f_{\alpha})$ y denotar ambos como $d^2f_{\alpha}$ $^1$ .

Ahora que hemos establecido lo que significa el segundo diferencial y cómo interpretarlo, podemos pasar a la "regla del producto generalizado" (que es realmente un caso especial de la regla de la cadena) véase el capítulo $3$ , Teorema $8.4$ para la prueba. Enunciaré el teorema aquí (con una notación ligeramente diferente).

Regla del producto generalizado. (Teorema de Loomis y Sternberg $8.4$ )

Dejemos que $U,V,W, X$ sean espacios vectoriales normados. Sea $g: U \to V$ y $h: U \to W $ sean funciones diferenciables en un punto $\beta \in U$ . Sea $\omega: V \times W \to X$ sea un mapa bilineal acotado. Con estos supuestos, la función compuesta $F : U \to X$ definido por \begin{equation} F(\xi) = \omega(g(\xi), h(\xi)) \end{equation} es diferenciable en $\beta$ y su derivada en $\beta$ (que es un mapa lineal de $U$ en $X$ ) viene dada por la fórmula \begin{align} dF_{\beta}(\cdot) = \omega(dg_{\beta}(\cdot), h(\beta)) + \omega(g(\beta), \tag{*}dh_{\beta}(\cdot)), \end{align} es decir, para todos los $x \in U$ tenemos \begin{equation} dF_{\beta}(x) = \omega(dg_{\beta}(x), h(\beta)) + \omega(g(\beta), dh_{\beta}(x)). \end{equation}

En este teorema, nos gusta pensar en el mapa bilineal $\omega$ como una especie de "multiplicación", de modo que $F(\xi)$ es el "producto" de $g(\xi)$ y $h(\xi)$ . Obsérvese que la derivada es muy similar a la de una sola variable: "diferenciar la primera, mantener la segunda", $+$ mantener la primera, diferenciar la segunda".


Por último, podemos llegar al derivado real que te interesa. Aquí, de conformidad con la notación del teorema, definimos los siguientes mapas:

  • $\omega: L\left( M_{n \times n}(\mathbb{R}), \mathbb{R} \right) \times M_{n \times n}(R) \to \mathbb{R}$ definido por $\omega(T, \xi) = T(\xi)$ . Así que $\omega$ es como el mapa de "evaluación". Se puede comprobar fácilmente que es bilineal (la acotación se deduce del hecho de que los espacios son de dimensión finita)
  • $g: \mathbb{R} \to M_{n \times n}(\mathbb{R})$ definido por $g(t) = e^{t Y_I}$ .
  • $h: \mathbb{R} \to M_{n \times n}(\mathbb{R})$ definido por $h(t) = e^{t Y_I} \cdot X_I$

Con estos mapas "auxiliares" definidos, puedes definir la función que realmente te interesa: \begin{align} F(t) &= df_{g(t)}(h(t)) \\ &= \omega(df_{g(t)}, h(t)) \end{align} (Espero que te des cuenta de que $df_{g(t)}$ es una notación conveniente para $\left[(df) \circ g \right](t)$ y que los subíndices sólo evitan más paréntesis). Ahora se desea calcular $F'(0)$ . Esta es la fórmula general para $F'(t)$ . \begin{align} F'(t) &= dF_t(1) \tag{Theorem $7.1$} \\ &= \omega \left( d\left( (df) \circ g\right)_t(1), h(t) \right) + \omega \left( df_{g(t)}, dh_t(1)\right) \tag{product rule} \\ &= \omega \left( [d^2f_{g(t)} \circ dg_t](1), h(t) \right) + \omega \left( df_{g(t)}, dh_t(1)\right) \tag{chain rule to $1^{st}$ term} \\ &= \omega \left( d^2f_{g(t)}[g'(t)], h(t) \right) + \omega \left( df_{g(t)}, h'(t)\right) \tag{Theorem $7.1$} \\ &= \left( d^2f_{g(t)} \left[g'(t) \right] \right)[h(t)] + df_{g(t)}[h'(t)] \tag{defn of $\omega$} \\ & \equiv d^2f_{g(t)} \left[ g'(t), h(t) \right] + df_{g(t)}[h'(t)]. \end{align} En la última línea, he abusado de la notación suprimiendo el isomorfismo $\Phi$ . Sustituyendo $t=0$ y utilizando tus conocimientos de la derivada de exponenciales matriciales te dará la respuesta deseada.

Con un poco de práctica (como las preguntas del capítulo 3 del libro), te sentirás muy cómodo con estas manipulaciones, que se hace innecesario escribir explícitamente los mapas "auxiliares" $\omega, g, h$ y podrá aplicar directamente la regla del producto para calcular $F'(t)$ .


[1.] Para más información sobre el segundo diferencial, véase la sección $3.16$ del libro

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X