Calculemos la primera variación de J en un punto u∈H aplicado a un vector v∈H :
[δJ(u)](v):=ddt(J(u+tv))|t=0=ddt(B(u,u)+t2B(v,v)+2t(Bu,v)−2l(u+tv))|t=0==2(B(u,v)−l(v)).
Desde l es lineal, por las hipótesis sobre B tenemos que J es estrictamente convexa, de hecho para t∈[0,1] que tenemos:
B(tx+(1−t)y,tx+(1−t)y)=t2B(x,x)+(1−t)2B(y,y)+2t(1−t)B(x,y)≤≤t2B(x,x)+(1−t)2B(y,y)+2t(1−t)√B(x,x)√B(y,y)==(t√B(x,x)+(1−t)√B(y,y))2≤≤tB(x,x)+(1−t)B(y,y),
donde la primera desigualdad es la de Cauchy-Schwarz sobre la forma simétrica bilineal definida positiva B(⋅,⋅) (es positiva por la hipótesis de coercitividad), mientras que la segunda desigualdad es la convexidad estricta de (⋅)2 . Junto con la linealidad de l tenemos la convexidad estricta de J .
Entonces por convexidad tenemos que para todo u,v∈H se mantiene:
J(u+v)≥J(u)+[δJ(u)](v)=J(u)+2(B(u,v)−l(v)).
Ahora bien u∈H es tal que i) se cumple, entonces por minimalidad la primera variación en u es tal que [δJ(u)](x)=0 para todos x∈H es decir B(u,x)=l(x) para todos x∈H por el primer cálculo.
Mientras que si u∈H es tal que ii) se cumple, entonces utilizando la convexidad de J para todos x∈H que tenemos:
J(x)=J(u+x−u)≥J(u)+[δJ(u)](x−u)=J(u)+2(B(u,x−u)−l(x−u))=J(u),
donde en la última igualdad utilizamos la hipótesis ii).