Hace un tiempo que estoy estudiando cálculo multivariable y el concepto de diferenciación en el espacio (o dimensiones superiores). Vi publicaciones relacionadas pero una pregunta todavía queda. No entiendo el concepto de transformación lineal que usamos para definir la derivada de Frechet. En una variable, la derivada es la mejor aproximación lineal de la función, así que supongo que esto se extiende a multivariable pero no podemos usar un número para esto (¿por qué?) y en su lugar usamos una matriz. ¿Alguien puede aclararme esto en inglés sencillo?
Respuestas
¿Demasiados anuncios?La cuestión es que para una función $f : \mathbb{R} \to \mathbb{R}$, $f'(a)$ define una transformación lineal, al igual que $Df({\bf a})$ lo hace para una función $f : \mathbb{R}^n \to \mathbb{R}^m$.
En cálculo de una variable, nos enseñan que la derivada de $f(x)$ en un punto $x = a$ es un número real $f'(a)$ que representa la pendiente de la recta tangente a la gráfica de $f(x)$ en el punto $x = a$. La ecuación de esta recta tangente es $y = f'(a)(x-a) + f(a)$; esta es la mejor aproximación lineal de $f(x)$ cerca de $x = a$, no la derivada en sí misma.
Si hacemos el cambio de variables $x^* = x - a$, $y^* = y - f(a)$, la recta tangente se convierte en $y^* = f'(a)x^*$; esta es una función lineal, que es simplemente una transformación lineal $\mathbb{R} \to \mathbb{R}$, y la matriz estándar (es decir, con respecto a la base canónica de $\mathbb{R}$) de esta transformación lineal es la matriz $1\times 1$ $[f'(a)]$.
En dimensiones superiores, comenzamos con $f : \mathbb{R}^n \to \mathbb{R}^m$ y en un punto ${\bf a} \in \mathbb{R}^n$ tenemos la derivada $Df({\bf a})$ que es una matriz $m\times n$ $Df({\bf a}) = \left[\frac{\partial f_i}{\partial x_j}({\bf a})\right]$ que a veces se llama el Jacobiano de $f$ en ${\bf a}$. Entonces, la mejor aproximación lineal de $f({\bf x})$ cerca de ${\bf x} = {\bf a}$ es ${\bf y} = Df({\bf a})({\bf x}-{\bf a}) + f({\bf a})$.
Si hacemos el cambio de variables ${\bf x}^* = {\bf x} - {\bf a}$, ${\bf y}^* = {\bf y} - f({\bf a})$, la recta tangente se convierte en ${\bf y}^* = Df({\bf a}){\bf x}^*$; esta es una transformación lineal $\mathbb{R}^n \to \mathbb{R}^m$, y la matriz estándar de esta transformación lineal es la matriz $m\times n$ $Df({\bf a})$.
Por lo tanto, la derivada en cálculo de una variable es solo un caso especial de la derivada en cálculo multivariable; solo establece $m = n = 1$.
En cuanto a tu pregunta, '¿por qué no podemos usar un número para la mejor aproximación lineal de una función $\mathbb{R}^n \to \mathbb{R}^m$?', nota que la función de aproximación debe ser $\mathbb{R}^n \to \mathbb{R}^m$, y porque es lineal, debe ser de la forma ${\bf y} = A{\bf x} + {\bf b}$ donde $A$ es una matriz $m \times n$ y ${\bf b} \in \mathbb{R}^m$. Al imponer la condición de que la aproximación lineal debe coincidir con la función en ${\bf x} = {\bf a}$, descubrimos que la aproximación lineal debe ser de la forma ${\bf y} = A({\bf x} - {\bf a}) + f({\bf a})$. Entonces, lo único que queda por determinar es la matriz $m\times n$ $A$, no un solo número como en cálculo de una variable.
Tengo poco que añadir a la excelente respuesta de Michael. Sin embargo, Dieudonne lo dijo mejor: esta es la introducción a su capítulo sobre diferenciación en el Capítulo VIII del Análisis Moderno.
El tema de este capítulo no es más que los teoremas elementales del Cálculo, que sin embargo se presentan de una manera que probablemente será nueva para la mayoría de los estudiantes. Esa presentación, que en todo momento se adhiere estrictamente a nuestra perspectiva general "geométrica" del Análisis, tiene como objetivo mantenerse lo más cerca posible de la idea fundamental del Cálculo, es decir, la aproximación "local" de las funciones por funciones lineales. En la enseñanza clásica del Cálculo, la idea se oscurece inmediatamente por el hecho accidental de que, en un espacio vectorial unidimensional, hay una correspondencia biunívoca entre formas lineales y números, y por lo tanto la derivada en un punto se define como un número en lugar de una forma lineal. Esta sumisión servil al cliché de la interpretación numérica a cualquier costo se vuelve mucho peor cuando se trata de funciones de varias variables...
En otras palabras, la confusión que enfrentas surge de pensar erróneamente en la derivada en cálculo I. "Erróneo" en el sentido de que la idea no se generaliza directamente a dimensiones superiores. La derivada de una función de $\mathbb{R}^n \rightarrow \mathbb{R}^m$ no es otra función de $\mathbb{R}^n \rightarrow \mathbb{R}^m$. En su lugar, es una transformación lineal, o si prefieres el punto de vista jacobiano, una matriz de funciones.