4 votos

Cuál es la aproximación de primer orden a una función diferenciable $F:M_{n\times n}(\mathbb{R})\to\mathbb{R}$

Dada una función diferenciable $$F:M_{n\times n}(\mathbb{R})\to\mathbb{R}$$ ¿Cómo debo interpretar su aproximación de primer orden?

La derivada de una función de valor real de una matriz es una función de valor matricial de una matriz. Así que lo que hice fue tratar esta función como si fuera una función $$F:\mathbb{R}^{n\times n}\to\mathbb{R}$$ y formó lo que espero sea la aproximación de primer orden: $$F(X+H)\approx F(X) + \text{tr}(F'(X)H^T)$$

¿Es esto correcto? ¿La aproximación de segundo orden contendría entonces un tensor de 3? Aunque interpretándolo como una función vectorial sólo sería una matriz (el hessiano).

¿Cuál es entonces la diferencia entre los dominios $M_{n\times n}(\mathbb{R})$ y $\mathbb{R}^{n\times n}$ . Son isomorfos como espacios vectoriales, por lo que debería pensar en $M_{n\times n}(\mathbb{R})$ como sólo $\mathbb{R}^{n\times n}$ con alguna estructura multiplicativa extra?

¿Dónde puedo ir para aprender más sobre este tipo de cosas?

Actualización

Ok, así que pasé algún tiempo mirando la respuesta de Aloizio y aquí está mi entendimiento. Aloizio dice que la derivada es una función lineal continua de $\mathbb{E}\mapsto\mathbb{F}$ y eso me hizo darme cuenta de que para las funciones $\mathbb{R}^n\mapsto\mathbb{R}$ El gradiente no es la derivada, la primera derivada es la función que calcula el producto punto del gradiente con un vector. Esto es confuso ya que parece haber una tendencia en las matemáticas a confundir el mapa lineal de las derivadas parciales con la propia derivada.

Si miramos el determinante como ejemplo, calculamos $$\det(A+H) = \det(A) + \text{tr}(Adj_AH) + \epsilon(A,H)$$ donde $Adj_A$ es la matriz adyacente de $A$ . Y por tanto la derivada del determinante en $A$ es $$\text{tr}(Adj_A\;\cdot\;)$$ que, por supuesto, es continua y lineal.

Ahora, para una función general diferenciable $M_{n\times n} (\mathbb{R})\mapsto\mathbb{R}$ . Vemos que $\text{tr}(Adj_A\;\cdot\;)$ no es más que una versión apilada de filas del producto punto, y por lo tanto la distinción entre $M_{n\times n} (\mathbb{R})\mapsto\mathbb{R}$ y $\mathbb{R}^{n\times n}\mapsto\mathbb{R}$ parece más bien cosmético, y deberíamos esperar que todas las primeras derivadas adopten la forma $\text{tr}(B\;\cdot\;)$ para $B$ la matriz de derivadas parciales. También imagino que hay alguna manera de escribir la segunda derivada como una función que involucra un 3-tensor, pero no sé nada acerca de los tensores, así que no podía decir con seguridad.

0 votos

También he actualizado la respuesta.

1voto

failexam Puntos 90

La derivada de una función de valor real es una funcional lineal que puede ser interpretado como una matriz.

Pero muchas veces esta interpretación sólo es confusa, y no es práctica.

La derivada de una función $f: \mathbb{E} \rightarrow \mathbb{F}$ de un espacio de Banach a otro en un punto $x$ es una función lineal continua $Df_x : \mathbb{E} \rightarrow \mathbb{F}$ para lo cual:

$$f(x+h)=f(x)+(Df_x)(h)+\epsilon(h)$$

, donde $\frac{||\epsilon(h)||}{||h||}\rightarrow 0$

Por ejemplo, tomemos la función $f: \mathbb{H} \rightarrow \mathbb{R}$ que mapea $x \mapsto \langle x, x \rangle$ . Tenemos:

$$f(x+h)=\langle x + h, x +h\rangle=\langle x, x \rangle + 2\langle x, h \rangle + \langle h, h \rangle$$

Lo que implica $Df_x=\langle 2x , ~\cdot ~\rangle$ .

Ahora, más cerca de su caso: considere la función:

$$f: M_{n \times n} \rightarrow M_{n \times n}$$

$$ A \mapsto A^2 $$

Entonces,

$$f(A+H)=(A+H)^2=A^2+AH+HA+H^2$$

Lo que implica $Df_A=A. ~\cdot + \cdot~. A$ . (Esto sólo significa que es la función lineal que toma $H$ a $A.H+H.A$ ).

Vamos a estirar esto un poco... entonces tenemos $Df: M_{n \times n} \rightarrow L(M_{n \times n}; M_{n \times n})$ , $A \mapsto A. ~\cdot + \cdot~. A$ . Deseamos calcular $D_BDf$

$Df_{B+H}=(B+H). ~\cdot + \cdot ~.(B+H) =(B. ~\cdot + \cdot ~.B) + (H. ~\cdot + \cdot ~.H)$

Por lo tanto, $D_BDf=(~\cdot' ~.~ \cdot + \cdot ~.~ \cdot'~)$ . Entonces tenemos que $DD_f$ es constante, como deberíamos esperar, ya que para el caso de la función real $f(x)=x^2$ tiene una segunda derivada constante. Obsérvese que si evaluáramos $DDDf$ , tendríamos el $0$ función.

Intenta calcular las derivadas de $\langle Ax, x \rangle$ y $\det$ para la práctica.


Actualización:

En primer lugar, la matriz de derivadas parciales no es más que la representación de la derivada en la base canónica. Por lo tanto, es natural ver esta representación: presenta una forma agradable de hacer cálculos con la derivada.

Ahora, para responder a tu pregunta sobre los tensores...

Considera que tienes una función diferenciable $f: \mathbb{R}^n \rightarrow \mathbb{R}$

La derivada en un punto $x$ es un mapa lineal desde $\mathbb{R}^n \rightarrow \mathbb{R}$ . Por lo tanto, $Df: \mathbb{R}^n \rightarrow L(\mathbb{R}^n; \mathbb{R})$ .

La primera derivada $Df_x$ en un punto $x$ es, por tanto, una simple función lineal.

Ahora, la segunda derivada será entonces $\displaystyle DDf: \mathbb{R}^n \rightarrow L(\mathbb{R}^n; L\left(\mathbb{R}^n;\mathbb{R})\right)$ .

Por lo tanto, la segunda derivada $D_xDf$ en el punto $x$ es un elemento de $L(\mathbb{R}^n; L\left(\mathbb{R}^n;\mathbb{R})\right)$ .

Pero un elemento de dicho conjunto tiene una interpretación natural como elemento de $L(\mathbb{R}^n, \mathbb{R}^n; \mathbb{R})$ (el conjunto de funcionales bilineales).

Asociamos a un elemento $T$ de $L(\mathbb{R}^n; L\left(\mathbb{R}^n;\mathbb{R})\right)$ la función bilineal $T'$ de la siguiente manera:

$$T'(h_1,h_2)=(Th_1)h_2$$

Análogamente, $D_xDDf$ puede ser visto como un $3$ -funcional lineal, etc.

Ahora, un funcional multilineal de un producto de espacios vectoriales puede identificarse con un funcional lineal del producto tensorial de esos espacios.

Por lo tanto, $D_xD^{m-1}f$ puede identificarse con un elemento de $\left(\mathbb{R}^n \otimes ... \otimes \mathbb{R}^n\right)^*$ ( $m$ veces).

Para espacios vectoriales de dimensión finita, el dual del producto tensorial es el producto tensorial del dual, por tanto:

$D_xD^{m-1}f$ puede verse como un elemento de $\left({\mathbb{R}^n}^* \otimes ... \otimes {\mathbb{R}^n}^*\right)$ ( $m$ veces).

0 votos

No debería $\epsilon(h)$ dependen de $x$ ¿también?

0 votos

Sí, debería. Esto está implícito, ya que "definí" $\epsilon(h)$ después de arreglar $x$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X