Esta pregunta surge a partir de las dos últimas ecuaciones en la Wikipedia el artículo. Este es un problema común en la geometría diferencial, es decir, de muchos y diferentes notaciones mezclado en un solo lugar.
La definición se indica claramente en el artículo antes mencionado. La Hessiana de una función suave $f:M\rightarrow \mathbb{R}$ en un arbitrario suave colector con una arbitraria de conexión de $\nabla$ es el iterado derivada covariante de la función $f$, que es
$$
\operatorname{Hess}(f):=\nabla{\nabla{f}}
$$
de modo que $\operatorname{Hess}(f) \in \Gamma(T^*M \otimes T^*M)$, en otros términos es una $(0,2)$-tensor de campo en $M$. Para cualquiera de los dos campos vectoriales $X,Y$ $M$ tenemos un suave real, la función con valores de $\operatorname{Hess}(f)(X,Y)=\nabla{\nabla{f}}\,(X,Y)$ sobre el colector $M$. Todo lo que sabemos acerca de esta función es que es bilineal.
Dada una conexión de $\nabla$ sabemos cómo calcular $\nabla{f}\;$ para cualquier función suave, y $\nabla_X{Y}\;$ para cualquiera de los dos (suave) campos vectoriales $X,Y$. Esta regla es lineal en la ranura $X$ y satisface un producto de la regla en la ranura $Y$. Para los tensores de todos los otros tipos covariantes derivados se calcula mediante el requisito de que los viajes con contracciones y satisface la regla del producto con respecto al producto tensor.
En particular, $\nabla{f}\equiv \operatorname{d}f\;$, por definición, y
$$
\nabla_Y{f}=\nabla{f}(Y)=\operatorname{d}f(Y)=Y\f \etiqueta{1}
$$
Esto también puede ser visto como
$$
\nabla{f}(Y)=\nabla{f}\cdot Y=\mathcal{C}(\nabla{f} \otimes Y)
$$
donde $\mathcal{C}$ indica que la contracción del operador (así como el símbolo de $\cdot$ no).
Ahora con el declarado propiedades de la derivada covariante podemos escribir el siguiente cálculo
$$
\begin{align}
\nabla_{X}(\nabla{f}(Y)) &= \mathcal{C}((\nabla_X \nabla{f} \otimes Y) + \nabla{f} \otimes \nabla_X{Y} \\
&= \nabla{\nabla{f}(X,Y)} + \nabla_{\nabla_X{Y}}{f}
\end{align}
$$
La reescritura de este uso de los convenios (1), llegamos a la
$$
\nabla{\nabla{f}}(X,Y)=X(Y\,f))-(\nabla_X{Y})f \etiqueta{2}
$$
Ahora recordemos que en la geometría de Riemann hemos canónica isomorphisms entre la tangente y la cotangente espacios (llamados musical isomorhphisms), de modo que podamos identificar
$$
\operatorname{d}f \equiv \operatorname{grad}(f)
$$
Sin embargo, uno debe tener en mente que esto realmente significa
$$
\operatorname{grad}(f) = \operatorname{d}f^\#
$$
que, por definición, es un único vector que
$$
g(\operatorname{grad}(f), Y)=g(\operatorname{d}f^\#, Y) = \operatorname{d}f(Y) = Y\,f
$$
Otra característica de la geometría de Riemann es que utilizamos la de Levi-Civita de conexión por defecto.
Ahora el uso de (2) es fácil de completar lo que @Jason se sugiere:
$$
\begin{align}
\nabla{\nabla{f}}(X,Y) &= X(g(\operatorname{grad}(f), Y)) - g(\operatorname{grad}(f), \nabla_X{Y}) \\
&= g(\nabla_X \operatorname{grad}(f), Y) + g(\operatorname{grad}(f), \nabla_X{Y}) - g(\operatorname{grad}(f), \nabla_X{Y}) \\
&= g(\nabla_X \operatorname{grad}(f), Y)
\end{align}
$$
quod brindamos demonstrandum (QED).