Deje $c,d\in [a,b]$, con $c<d$. Basta probar que
$$
f(d)-f(c)>-(4+d-c)\varepsilon,
$$
para cada $\varepsilon>0$.
Podemos enumerar $A$ como $A=\{\alpha_n\}_{n\in\mathbb N}$ y elija $\delta_n>0$, de tal manera que
$$
x\in(\alpha_n-\delta_n,\alpha_n+\delta_n)\quad\Longrightarrow\quad|f(x)-f(\alpha_n)|
<\frac{\varepsilon}{2^n}
$$
para todos los $n\in\mathbb N$. Encontrar ese $\delta_n$s'es posible gracias a la continuidad de la $f$.
Set $I_n=(\alpha_n-\delta_n,\alpha_n+\delta_n)$. En particular
$$
y_1,\,y_2\en I_n\,\,\,\Longrightarrow\,\,\, f(y_2)>f(y_1)-\frac{\varepsilon}{2^{n-1}}
\etiqueta{1}
$$
Deje $x\in [a,b]\setminus A$. Entonces existe un $\eta_x>0$, de tal manera que
$$
y\(x-\eta_x,x+\eta_x)\quad\Longrightarrow\quad
-\varepsilon |y-x|<f(y)-f(x)-(y-x)f'(x)< \varepsilon|y-x|,
$$
y por lo tanto, cada $y_1,y_2\in J_x=(x-\eta_x,x+\eta_x)$, con $y_1\le x\le y_2$, tenemos que
$$
f(y_2)-f(y_1)-(y_2-y_1)f'(x)\ge -\varepsilon(|y_1-x|+|y_2-x|)
$$
y desde $f'(x)\ge 0$, se obtiene finalmente que
$$
f(y_2)>f(y_1)-\varepsilon(y_2-y_1). \etiqueta{2}
$$
Vamos a utilizar el siguiente resultado (para una prueba de ver aquí):
Primo del Lexema. Deje $\mathcal C$ ser una cobertura completa de $[a, b]$, es decir, una colección de subintervalos cerrados de $[a, b]$ con la propiedad de que para cada
$x\in[a, b]$, existe un $\delta>0$, por lo que $\mathcal C$ contiene todos los subintervalos de $[a, b]$ que contiene $x$ y tiene longitud menor que $\delta$. Entonces existe una partición de $\{I_1,\,I_2,\ldots,I_m\}\subset\mathcal C$ de no superposición de los intervalos de
para $[a, b]$, donde $I_i=[x_{i-1}, x_i]$ y
$a=x_0 < x_1 <\cdots <x_n=b,$ para todos los $1\le i\le m$.
Definimos un $\mathcal C$ la colección de todos los subintervalos cerrados $K$ de $[c,d]$, de tal manera que cualquiera de las $K\subset I_n$ e $\alpha_n\in K$, para algunas de las $\alpha_n\in A$ o $K\subset J_x$ e $x\in K$ para algunos $x\in [a,b]\setminus A$. Primo Lema proporciona la existencia de puntos de $c=x_0<x_1<\cdots<x_m=d$, de tal manera que los intervalos cerrados
$$
K_1=[x_0,x_1],\, K_2=[x_1,x_2],\ldots,K_m=[x_{m-1},x_m]
$$
pertenecen a $\mathcal C$.
A partir de la construcción de la $\mathcal C$, cada una de las $K_j$ es un subinterval de algunos $I_n$ o algunos $J_x$, y posiblemente $K_j$ es un subconjunto de más de uno de dichos intervalos. Para cada $K_j$ le asigna exactamente un ejemplo de intervalo. En particular, para cada $j\in\{1,\ldots,m\}$ le asigna un único $n\in\mathbb N$, de tal manera que $\alpha_n\in K_j\subset I_n$, que se denota como $n_j$, o $x\in [a,b]\setminus A$, de tal manera que $x\in K_j\subset J_x$. Esta asignación no es necesariamente $1-1$, ya que si $\alpha_n$ es el punto final común de $K_j$ e $K_{j+1}$, es posible que $n_j=n_{j+1}$. Por lo tanto, algunas de las $I_n$'s puede haber sido asignado a dos $K_j$'s (y no más de dos).
Nos dividimos $S=\{1,\ldots,m\}$ como una unión de dos conjuntos disjuntos. $S_1$ será el conjunto de las $j\in S$, del cual un $n\in\mathbb N$ ha sido asignado (es decir, $\alpha_n\in K_j\subset I_n=I_{n_j}$), mientras que $S_2=S\setminus S_1$. Si $j\in S_2$, luego un $x\in [a,b]\setminus A$ ha sido asignado a $j$ e $x\in K_j\subset J_x$.
Si $j\in S_1$, e $K_j\subset I_{n_j}$
a continuación, $(1)$ proporciona la $f(x_j)-f(x_{j-1})>-\dfrac{\varepsilon}{2^{n_j-1}}$,
mientras que si $j\in S_2$, a continuación, $(2)$ establece que
$ f(x_j)-f(x_{j-1})>-\varepsilon (x_j-x_{j-1})$.
Ahora tenemos que
$$
f(d)-f(c)=\sum_{j=1}^m \big(f(x_j)-f(x_{j-1})\big)=
\sum_{j\en S_1} \big(f(x_j)-f(x_{j-1})\big)+\sum_{j\en S_2} \big(f(x_j)-f(x_{j-1})\big) \\
\ge -\sum_{j\en S_1} \frac{\varepsilon}{2^{n_j-1}}-\sum_{j\en S_2}\varepsilon(x_j-x_{j-1})
> -4\varepsilon-\varepsilon(d-c)=-(4+d-c)\varepsilon.
$$
La última desigualdad se cumple porque en la primera suma, $\sum_{j\in S_1} \dfrac{1}{2^{n_j-1}}< 2\sum_{n=1}^\infty \dfrac{1}{2^{n-1}}=4$, ya que el poder $\dfrac{1}{2^{n-1}}$ puede aparecer dos veces, si $\alpha_n$ es un extremo de dos vecinos de $K_j$'s.