3 votos

¿Cómo se justifica aplicar la regla de la cadena a una función cuando las propias entradas son funciones?

Dado $u(x,v)$ , $v(x,y)$ y $f(u,v)$ ( $u$ es una función de $x$ y $v$ y $v$ es una función de $x$ y $y$ ), queremos encontrar ${\partial f}/{\partial x}.$ He visto esto hecho como:

${\partial f}/{\partial x} = {\partial f}/{\partial u} \cdot {\partial u}/{\partial x} + {\partial f}/{\partial v} \cdot {\partial v}/{\partial x}$ .

${\partial u}/{\partial x}$ se encuentra entonces como si $v$ era una constante (no una función de $x$ ).

Sin embargo, esto me parece un error. La regla de la cadena nos permite separar variables, pero ¿cómo nos permite tratar funciones de la variable que estamos diferenciando contra como constantes?

Sin embargo, este es un enfoque común en muchos trabajos de CS, especialmente en lo que respecta al aprendizaje automático y las redes neuronales. La retropropagación, un algoritmo común de ML/NN, parece basarse en ella. Para un ejemplo muy claro, véase la derivación de ${\partial l}/{\partial x_i}$ en http://costapt.github.io/2016/07/09/batch-norm-alt/ .

¿Cuál es la prueba o la base para tratar $v$ como una constante al tomar la derivada parcial con respecto a $u$ ?

2voto

SRobertJames Puntos 137

El enfoque anterior es común en las aplicaciones, debido a su conveniencia, pero raro en las matemáticas, debido a su dejadez. En concreto, $f$ está mal definida: ¿Es una función $\mathbb{RxR} \to \mathbb{R}$ ? Si es así, ¿qué significa restringir el segundo parámetro en función del primero?

Lo que realmente queremos es: Dado $f(x,y), a(x), b(x)$ , defina $g(x): \mathbb{R} \to \mathbb{R}, x \mapsto f(a(x), b(x))$ .

Esta notación adecuada destaca que, en la descuidada notación original, ${\partial f}/{\partial q}$ podía tener dos significados (¡!), y había que averiguarlo basándose en el contexto: o bien la pendiente de $f$ si sólo cambiara el primer parámetro y pudiéramos mantener constante el segundo; o la pendiente de $f$ si el primer parámetro cambia y el segundo cambia en consecuencia. Nuestra nueva notación lo soluciona, ya que $f$ es una función de aridad 2, y g es una función de aridad 1, y ambas pueden tomar cualquier argumento en su dominio (¡como debe hacer una función!).

Siguiendo con la actualización notacional, utilizamos el $D$ de tal manera que si $f: \mathbb{R^m} \to \mathbb{R^n}$ , $Df$ también es una función de $\mathbb{R^m} \to \mathbb{R^n}$ . (En esta notación, las derivadas parciales son simplemente la selección de una sola entrada de la derivada, y el gradiente, el jacobiano y la derivada ordinaria son todos la misma cosa, con el nombre cambiado si $n$ o $m$ igual 1.) Así que podemos escribir una única función $c: x \mapsto (a(x), b(x))$ y utilizar la regla de la cadena multivariable $Dg(x) = D(f \circ c)(x) = Df(c(x)) \cdot Dc(x)$ .

Multiplicar el producto punto y convertirlo de nuevo en el original ( descuidado aplicada), y se obtiene $df/dx = {\partial f}/{\partial u} \cdot {\partial u}/{\partial x} + {\partial f}/{\partial v} \cdot {\partial v}/{\partial x}$ . (Nótese que, también aquí, en el lado izquierdo estamos tratando $f$ como función de una sola variable $x$ en el lado derecho como función de dos variables $u$ y $v$ -- (¡hay que saber por el contexto a qué se refiere!)

En definitiva, el problema surge porque, a diferencia de la notación de Spivak, que sólo define la derivada respecto a los parámetros de la función, la notación de Leibniz permite tomar la derivada respecto a cualquier cosa y, si hay varios cualquier cosa en la misma expresión, no se dice cómo esos cualquier cosa están relacionados entre sí. En el lado izquierdo, $dx$ significa "asumir $x$ cambios y causas $u$ y $v$ cambiar", mientras que en el lado derecho, ${\partial u}$ significa "asumir $u$ cambios con $v$ no cambian". El problema sería aún más flagrante si la pregunta se hubiera planteado como "¿Cuál es la derivada total de $f(x, u(x))$ en relación con $x$ ?", ya que la respuesta es entonces $df/dx = {\partial f}/{\partial x} + {\partial f}/{\partial u} \cdot du/dx$ (!!!).

1voto

SRobertJames Puntos 137

Total de derivados es el nombre para hacer exactamente eso (ver https://en.wikipedia.org/wiki/Total_derivative ). Se explora ampliamente ¿Cuál es exactamente la diferencia entre una derivada y una derivada total? y en https://spin0r.wordpress.com/2013/01/04/the-difference-between-partial-and-total-derivatives/ .

Ver también https://www.khanacademy.org/math/multivariable-calculus/multivariable-derivatives/differentiating-vector-valued-functions/a/multivariable-chain-rule-simple-version

Sin embargo, me sorprende que parezca faltar en los textos estándar de matemáticas. Por ejemplo, el artículo de Wikipedia citado anteriormente cita Métodos fundamentales de economía matemática para la Derivada Total, no cualquier texto estándar de calc. Igualmente, https://ocw.mit.edu/courses/mathematics/18-02-multivariable-calculus-fall-2007/readings/non_ind_variable.pdf toca los problemas aquí, pero hace no introducir el concepto de Derivada Total.

Me gustaría ver algunas cosas:

  1. Una prueba que muestra que la Derivada Total se puede encontrar de esta manera
  2. Algún tipo de discusión analítica de la Derivada Total (similar a cómo se definen y exploran las derivadas ordinarias y parciales)
  3. Las condiciones requeridas para definir el Derivado Total
  4. Una referencia a cualquier texto de matemáticas (no un texto de economía o termodinámica o CS) o incluso papel

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X