Nota: Esta respuesta se basa principalmente en la Introducción al Cálculo y Análisis del yo por R. Courant y John F..
Empezamos con el de una sola variable de caso y considerar una función de $y=f(x)$. Vamos a ver que también es bastante estándar para el tratamiento de $dx$ e $dy$ como separar las cantidades siempre que el uso de la configuración apropiada.
Definición de derivada
La definición de la derivada aparece en varias formas diferentes, usando la notación de Lagrange $y^{\prime}=f^{\prime}(x)$ escribimos
\begin{align*}
f^{\prime}(x)=\lim_{x_1\to x}\frac{f(x_1)-f(x)}{x_1-x}=\lim_{h\to 0}\frac{f(x+h)-f(x)}{h}
\end{align*}
Usando la notación de Leibnitz escribimos
\begin{align*}
\frac{dy}{dx}=\frac{df(x)}{dx}=f^{\prime}(x)=\lim_{x_1\to x}\frac{f(x_1)-f(x)}{x_1-x}=\lim_{\Delta x\to 0}\frac{\Delta y}{\Delta x}
\end{align*}
En Leibnitz la notación del paso al límite en el proceso de diferenciación se expresa simbólicamente mediante la sustitución del símbolo $\Delta$ por el símbolo $d$, motivando Leibnitz del símbolo de la derivada se define por la ecuación
\begin{align*}
\color{blue}{\frac{dy}{dx}=\lim_{\Delta x\to 0}\frac{\Delta y}{\Delta x}}\tag{1}
\end{align*}
Aquí tenemos las diferencias $\Delta x$ e $\Delta y$ que son independientes de los símbolos. Pero con el fin de obtener el derivado $\frac{dy}{dx}$ tenemos que asegurar que $\Delta x$ no es cero y realizamos el paso al límite por medio de una transformación que también en el límite evita la división por cero. En este contexto y con esta definición (1) tenemos que tratar a $\frac{dy}{dx}$ como único símbolo que no puede ser separada en dos cantidades diferentes $dy$ e $dx$. Pero ese no es el final de la historia.
Definición de la diferencial
La derivada de una función $y=f(x)$ fue definido por
\begin{align*}
f^{\prime}(x)=\lim_{h\to 0}\frac{f(x+h)-f(x)}{h}=\lim_{\Delta x\to 0}\frac{\Delta y}{\Delta x}
\end{align*}
donde $\Delta x=h$. Si por un fijo $x$ y una variable $h$, definimos una cantidad $\varepsilon$por
\begin{align*}
\varepsilon(h)=\frac{f(x+h)-f(x)}{h}-f^{\prime}(x)=\frac{\Delta y}{\Delta x}-f^{\prime}(x),
\end{align*}
a continuación, el hecho de que $f^{\prime}(x)$ es el derivado de la $f$ en el punto de $x$ equivale a la ecuación
\begin{align*}
\lim_{h\to 0}\varepsilon(h)=0
\end{align*}
La cantidad de $\Delta y=f(x+h)-f(x)$ representa el cambio o incremento en el valor de la variable dependiente $y$ que se produce cuando el valor de $x$ de la variable independiente es cambiado por el importe $\Delta x=h$. Desde
\begin{align*}
\Delta y=f^{\prime}(x)\Delta x+\varepsilon \Delta x,
\end{align*}
la cantidad de $\Delta y$ aparece como la suma de dos partes, a saber, una parte $f^{\prime}(x)\Delta x$ que es proporcional a $\Delta x$ y una parte $\varepsilon \Delta x$ que se puede hacer tan pequeño como queramos, en comparación con $\Delta x$ haciendo $\Delta x$ sí lo suficientemente pequeño. El dominante, lineales parte en la expresión de $\Delta y$ que llamaremos el diferencial de $dy$ de $y$ y escribir para ti
\begin{align*}
dy=df(x)=f^{\prime}(x)\Delta x\tag{2}
\end{align*}
Aquí en (2) podemos ver cómo la $dy$ se convierte en un símbolo por su propia cuenta. Es , por definición, y en poco tiempo vamos a ver que este tipo de definición se encuentra en armonía con Leibnitz, el símbolo de $\frac{dy}{dx}$.
Para cualquier función derivable $f$ y por un determinado $x$ este diferencial (2) es una bien definida la función lineal de $h=\Delta x$.
Por ejemplo, para la función de $y=x^2$ tenemos $dy=d(x^2)=2x\Delta x=2xh$.
Para la función particular $y=x$ cuyo derivado tiene el valor constante de uno, simplemente tenemos $dx=\Delta x$. A continuación, es consistente con nuestra definición de escribir $dx$ para $\Delta x$ cuando $x$ es la variable independiente; por lo tanto el diferencial de alguna función de $y=f(x)$ también puede ser escrito como
\begin{align*}
\color{blue}{dy=f^{\prime}(x)dx}.
\end{align*}
Resumen (el pie de la letra R. Courant): Anteriormente hemos utilizado el símbolo $dy/dx$ puramente simbólico para indicar el límite del cociente $\Delta y/\Delta x$ para $\Delta x$ tiende a cero. Con nuestra definición actual de los diferenciales $dy$ e $dx$ el derivado $dy/dx$ puede ser considerada realmente como la ordinaria del cociente de $dy$ e $dx$. Aquí, sin embargo, $dy$ e $dx$ ahora no son en ningún sentido "infinitamente pequeño" cantidades o "infinitesimals" tal interpretación estaría desprovisto de significado.
En lugar de $dy$ e $dx$ están bien definidas las funciones lineales de $h=\Delta x$ , que para las grandes $\Delta x$ puede tener grandes valores numéricos. No hay nada notable en el hecho de que el cociente $dy/dx$ de las cantidades de materiales que tiene el mismo valor que el derivado $f^{\prime}(x)$. Esto es una mera tautología reformulación de la definición de $dy$ como $f^{\prime}(x)dx$.
Ahora tendremos un breve vistazo a la multi-variable de caso. Consideramos que para conveniencia solamente una función bivariante $u=f(x,y)$. Como para funciones de una variable consideramos
\begin{align*}
\Delta u=f(x+h,h+k)-f(x,y)=h f_x(x,y)+kf_y(x,y)+\varepsilon_1 h+\varepsilon_2 k
\end{align*}
Llamamos a la parte lineal de la diferencial de la función, y escribir
\begin{align*}
du=df(x,y)=\frac{\partial f}{\partial x}h+\frac{\partial f}{\partial y}k=\frac{\partial f}{\partial x}\Delta x+\frac{\partial f}{\partial y}\Delta y\tag{3}
\end{align*}
Este diferencial, a veces llamada la diferencial total es una función de cuatro variables independientes, es decir, las coordenadas $x$ e $y$ de el punto bajo consideración y los incrementos de $h$ e $k$ de las variables independientes. Significa, simplemente, que $du$ se aproxima al incremento $\Delta u=f(x+h,y+k)-f(x,y)$ de la función, con un error que es arbitraria pequeña fracción $\varepsilon_1$ de $h$ e $\varepsilon_2$ de $k$, siempre que $h$ e $k$ son suficientemente pequeñas cantidades.
Para las variables independientes $x$ e $y$ nos encontramos de (3) que
\begin{align*}
dx&=\frac{\partial x}{\partial x}\Delta x+\frac{\partial x}{\partial y}\Delta y=\Delta x\\
dy&=\frac{\partial y}{\partial x}\Delta x+\frac{\partial y}{\partial x}\Delta y=\Delta y\\
\end{align*}
Por lo tanto, el diferencial de $df(x,y)$ está escrito más comúnmente
\begin{align*}
df(x,y)=\frac{\partial f}{\partial x}dx+\frac{\partial f}{\partial y}dy=f_x(x,y)dx+f_y(x,y)dy
\end{align*}
Finalmente consideramos que la diferencial total
\begin{align*}
df=f_xdx+f_ydy
\end{align*}
y los relacionados con la expresión
\begin{align*}
\frac{df}{dy}=f_x\frac{dx}{dy}+f_y\tag{4}
\end{align*}
En (4) tenemos una función $f=f(x,y)$ y considerar la posibilidad de $x=x(y)$ como función de $y$, por lo que $f=f(x(y),y)$ es una función en $y$ e $\frac{dx}{dy}=\frac{d}{dy}x(y)$.