Siempre soy partidario de introducir las derivadas (después del cálculo 101) utilizando espacios vectoriales, ya que convierte cualquier otro caso en un caso particular.
L U,V ser dos normalizado y que f:U→V sea una función cualquiera. Decimos que f es diferenciable en un punto u∈U si f posee la expansión de primer orden en torno a u, es decir, si existe un función lineal continua L:U→V tal que para todo h en una vecindad de cero en U, f(u+h)=f(u)+L(h)+o(h), donde la notación "litte-oh" o(h) representa una función tal que lim
Se puede demostrar que L depende únicamente de u, f y las topologías de los espacios normados \mathrm{U} y \mathrm{V}, por lo que es conveniente escribirlo como L = f'(u).
Se pregunta sobre el caso en que \mathrm{U} = \mathrm{U}_1 \times \mathrm{U}_2 es el producto de dos espacios normados. En este caso, tenemos que hablar de derivadas parciales. Para un punto determinado (u_1, u_2), introducir el funciones parciales f(u_1, \cdot):\mathrm{U}_2 \to \mathrm{V} y f(\cdot, u_2): \mathrm{U}_1 \to \mathrm{V} como sigue: f(u_1, \cdot):v_2 \mapsto f(u_1, v_2), \quad f(\cdot, u_2): v_1 \mapsto f(v_1, u_2). También introducimos el inyecciones canónicas basadas en (u_1, u_2) por j_1:v_1 \mapsto (v_1, u_2) y j_2:v_2 \mapsto (u_1, v_2). Entonces, podemos escribir f(u_1, \cdot) = f \circ j_2, \quad f(\cdot, u_2) = f \circ j_1. En regla de la cadena demostrará que si f es diferenciable en (u_1, u_2) entonces las funciones parciales basadas en (u_1, u_2) también son diferenciables. Además, la derivada de las funciones parciales será \partial_{u_1} f = f' \circ j_1' y puesto que j_1 = (0, u_2) + i_1 donde i_1 es una función lineal i_2(v_1) = (v_1, 0), se puede demostrar que su derivada es j_1'(h_1) = i_1'(h_1) = (h_1, 0) y así \partial_{u_1} f(h_1) = f'(j_1(u_1)) j_1'(h_1) = f'(u_1, u_2) \cdot (h_1, 0). La función lineal contionua h_1 \mapsto f'(u_1, u_2) \cdot (h_1, 0) se conoce como primera derivada parcial de f en (u_1, u_2) la segunda derivada parcial de f se define mutatis mutandis. Esto permite escribir el relación fundamental entre la "derivada total" y la "derivada parcial" f'(u_1, u_2)\cdot (h_1, h_2) = f'(u_1, u_2) \cdot (h_1, 0) + f'(u_1, u_2) \cdot (0, h_2) = \partial_{u_1} f(h_1) + \partial_{u_2} f(h_2).
Cuando todos los espacios normados son algún espacio euclidiano (es decir, algún \mathbf{R}^n ), entonces podemos identificar cada función lineal con su matriz canónica. Supongamos que \mathrm{U}_1 = \mathbf{R}^{p}, \mathbf{U}_2 = \mathbf{R}^q y \mathbf{V} = \mathbf{R}^r. Entonces \mathrm{U} = \mathbf{R}^{p+q} y así f'(u_1, u_2) debe ser una función lineal de \mathbf{R}^{p+q} en \mathbf{R}^r, es decir, una matriz de tipo (r, p + q) ( r "filas" y p+q "columnas"). La regla anterior establece que la primera derivada parcial corresponde a la primera p columnas de la derivada total (ya que (h_1, 0) \in \mathbf{R}^p \times \{0\} ), y el segundo parcial corresponde al último q columnas ( (0, h_2) \in \{0\} \times \mathbf{R}^q ). Por lo tanto, \nabla f(x,y) = \left[ \dfrac{\partial f}{\partial x}, \dfrac{\partial f}{\partial y} \right] donde la notación parcial son matrices de tipos (r, p) y (r, q) respectivamente.
Nota. A menudo los autores hacen lo siguiente sin mencionarlo nunca. Supongamos que f:\mathbf{R}^n \to \mathbf{R}. Por lo dicho anteriormente, debemos tener \nabla f = \left[ \partial_{x_1} f, \ldots, \partial_{x_n} f \right] ya que la matriz que representa la derivada de f debe representar una función lineal de \mathbf{R}^n en \mathbf{R}, por lo que es del tipo (1, n). Sin embargo se cree firmemente que esta matriz debe para ser un vector, y como tal, la gente escribe su transposición, de ahí la confusión que tenías.