Hasta ahora lo he hecho:
$\boldsymbol{f^{-1}} \circ \boldsymbol{f}(\boldsymbol{a}) = \boldsymbol{a} \implies [\boldsymbol{D}(\boldsymbol{f^{-1}}(\boldsymbol{a}) \circ \boldsymbol{f}(\boldsymbol{a}))] = I_n \implies [\boldsymbol{D}\boldsymbol{f^{-1}}(\boldsymbol{f}(\boldsymbol{a}))][\boldsymbol{D}\boldsymbol{f}(\boldsymbol{a})] = I_n $ por la regla de la cadena.
Interpretación de $[\boldsymbol{D}\boldsymbol{f^{-1}}(\boldsymbol{f}(\boldsymbol{a}))]$ como la matriz compuesta por operaciones de reducción de filas, $[\boldsymbol{D}\boldsymbol{f}(\boldsymbol{a})]$ reduce la fila a $I_n$ . Ahora $[\boldsymbol{D}\boldsymbol{f}(\boldsymbol{a})]$ es un $m \times n$ matriz, por lo que tenemos $m \le n$ : ¿Esto es convincente? ¿Cómo lo hago riguroso?
Esto parece una pregunta similar a Existencia de una función inversa a la diferenciable