Calculemos la primera variación de $J$ en un punto $u\in H$ aplicado a un vector $v\in H$ :
$$\begin{align}[\delta J(u)](v)&:=\frac{d}{dt}\bigg( J(u+tv) \bigg)\bigg|_{t=0}=\frac{d}{dt}\bigg( B(u,u)+t^2B(v,v)+2t(Bu,v)-2l(u+tv)\bigg)\bigg|_{t=0} =\\&=2(B(u,v)-l(v)). \end{align}$$
Desde $l$ es lineal, por las hipótesis sobre $B$ tenemos que $J$ es estrictamente convexa, de hecho para $t\in[0,1]$ que tenemos:
$$\begin{align} B(tx+&(1-t)y,tx+(1-t)y)= t^2B(x,x)+(1-t)^2B(y,y)+2t(1-t)B(x,y) \le \\ & \le t^2B(x,x)+(1-t)^2B(y,y)+2t(1-t)\sqrt{B(x,x)}\sqrt{B(y,y)} =\\&=\bigg(t\sqrt{B(x,x)}+(1-t)\sqrt{B(y,y)}\bigg)^2\le \\& \le tB(x,x)+(1-t)B(y,y), \end{align}$$
donde la primera desigualdad es la de Cauchy-Schwarz sobre la forma simétrica bilineal definida positiva $B(\cdot,\cdot)$ (es positiva por la hipótesis de coercitividad), mientras que la segunda desigualdad es la convexidad estricta de $(\cdot)^2$ . Junto con la linealidad de $l$ tenemos la convexidad estricta de $J$ .
Entonces por convexidad tenemos que para todo $u,v\in H$ se mantiene:
$$J(u+v)\ge J(u)+[\delta J(u)](v)=J(u)+2(B(u,v)-l(v)).$$
Ahora bien $u\in H$ es tal que i) se cumple, entonces por minimalidad la primera variación en $u$ es tal que $[\delta J(u)](x)=0$ para todos $x\in H$ es decir $B(u,x)=l(x)$ para todos $x\in H$ por el primer cálculo.
Mientras que si $u\in H$ es tal que ii) se cumple, entonces utilizando la convexidad de $J$ para todos $x\in H$ que tenemos:
$$J(x)=J(u+x-u)\ge J(u)+[\delta J(u)](x-u)=J(u)+2(B(u,x-u)-l(x-u))=J(u),$$
donde en la última igualdad utilizamos la hipótesis ii).