Para encontrar la distancia de un punto a una curva (que es la gráfica de una función), el método habitual que he visto es el siguiente: dados un punto y una curva $\{x,f(x)\}\colon c\in\mathbb{R}$ (donde $f\colon\mathbb{R}\rightarrow \mathbb{R}$ es una función), la distancia de $(x,f(x))$ de $(a,b)$ es $D(x)=\sqrt{(x-a)^2+(f(x)-b)^2}$ . Para obtener la distancia más corta de $(a,b)$ de la curva, resolvemos $D'(x)=0$ pour $x$ (y en la mayoría de los casos tenemos sólo infinitas soluciones) y para estos $x$ calculamos las distancias de $(x,f(x))$ a $(a,b)$ y encontrar el mínimo.
Me gustaría ver la teoría detrás del proceso "resolver $D'(x)=0$ ...", ya que no pude notar por qué $D$ ¿es diferenciable?, y si es diferenciable, ¿por qué $D'(x)$ debe tomarse como cero para obtener el punto más cercano? Por supuesto, habría ciertas suposiciones sobre la diferenciabilidad de $f$ Pero no he encontrado esa teoría en la mayoría de los textos de cálculo y análisis.
Por favor, sugiera las referencias en las que se abordan estas cuestiones "teóricamente".