He estado repasando la teoría que hay detrás del aprendizaje profundo, lo que me ha obligado a aprender algo de cálculo vectorial y se me ha ocurrido cómo se puede encontrar la derivada de una función respecto a una función que tiene más de 2 entradas con valor vectorial?
Para una función con que tiene una entrada con valor de 1 vector $f(\mathbf{x})$ podríamos simplemente tomar la derivada con respecto a cada elemento del vector $\mathbf{x}$ lo que da como resultado el vector gradiente:
$$\nabla f_{\mathbf{x}} = \begin{bmatrix} \frac{\delta f(\mathbf{x})}{\delta x_1} \\ \vdots \\ \frac{\delta f(\mathbf{x})}{\delta x_n}\end{bmatrix}$$
Para una función con que tiene una entrada con valor de 2 vectores $g(\mathbf{x}, \mathbf{y})$ Podría tomar encontrar el vector de gradiente con respecto a $g$ para $\mathbf{x}$ y $\mathbf{y}$ luego tomar el producto exterior (si mi entendimiento es correcto, por favor corríjanme si me equivoco) dando como resultado: $$(\nabla g_{\mathbf{x}})^T(\nabla g_{\mathbf{y}})$$ (No sé con qué símbolo se representa el producto exterior). Pero el resultado de esto debería ser un n x m
matriz dimensional donde $\mathbf{x} \in \mathbf{R}^{n} $ y $\mathbf{y} \in \mathbf{R}^m$ .
Entonces, si lo anterior es correcto, ¿cómo se puede generalizar esto a una función de valor vectorial de k
¿vectores de entrada?