Esto es increíblemente fácil de probar si se tiene el siguiente resultado:
Si una función $f$ es diferenciable en $a$, entonces existe una función continua $\varphi$ definida en un intervalo $[-\epsilon,\epsilon]$ tal que $\varphi(0)=0$ y
$$ f(a+h) = f(a) + f'(a)h + \varphi(h)h, $$
para todo $h \in (-\epsilon,\epsilon)$.
Y si tal $\varphi$ continua existe de modo que
$$ f(a+h) = b + \alpha h + \varphi(h)h, $$
para todo $h \in (-\epsilon,\epsilon)$, entonces $f$ es diferenciable en $a$ con $f'(a) = \alpha$.
La regla de la cadena sigue por cálculo directo: $(g \circ f)(a+h) = g(f(a+h))$, usa que $f$ es diferenciable para escribir $f(a+h)$ como $f(a) + f'(a)h + \varphi_f(h)h$, y luego llama "$f'(a)h + \varphi_f(h)h$" a $k$ y utiliza que $g$ es diferenciable.
Se necesita un poco de organización para asegurarse de que existan intervalos apropiados alrededor de $0$ para las funciones continuas auxiliares, pero no es tan malo.
Lo mejor de esta demostración es que se generaliza inmediatamente a funciones de $\mathbb R^m$ a $\mathbb R^n$.