Deje que los datos se $\mathbf{x}=(x_1, \ldots, x_n)$. Escribir $F(\mathbf{x})$ para la distribución empírica. Por definición, para cualquier función de $f$,
$$\mathbb{E}_{F(\mathbf{x})}[f(X)] = \frac{1}{n}\sum_{i=1}^n f(x_i).$$
Deje que el modelo de $M$ han densidad de $e^{f(x)}$ donde $f$ se define en el apoyo de la modelo. La cruz-la entropía de $F(\mathbf{x})$ $M$ se define como
$$H(F(\mathbf{x}), M) = -\mathbb{E}_{F(\mathbf{x})}[\log(e^{f(X)}] = -\mathbb{E}_{F(\mathbf{x})}[f(X)] =-\frac{1}{n}\sum_{i=1}^n f(x_i).\tag{1}$$
Asumiendo $x$ es una muestra aleatoria simple, su registro negativo de probabilidad es
$$-\log(L(\mathbf{x}))=-\log \prod_{i=1}^n e^{f(x_i)} = -\sum_{i=1}^n f(x_i)\tag{2}$$
en virtud de las propiedades de los logaritmos (convertir los productos de la suma).
La expresión de $(2)$ es una constante $n$ veces la expresión $(1)$. Debido a la pérdida de funciones se utilizan en las estadísticas sólo mediante la comparación de ellos, no hace ninguna diferencia que uno es un (positivo) constante de los tiempos de los otros. Es en este sentido que la negativa de registro de probabilidad", es una" cruz de entropía en la comilla.
Se necesita un poco más de imaginación para justificar la segunda afirmación de la cita. La conexión con el cuadrado de error es claro, porque para un "modelo Gaussiano" que predice los valores de $p(x)$ en puntos $x$, el valor de $f$ en cualquier punto es
$$f(x; p, \sigma) = -\frac{1}{2}\left(\log(2\pi \sigma^2) + \frac{(x-p(x))^2}{\sigma^2}\right),$$
cual es el error cuadrático $(x-p(x))^2$ pero reescalado por $1/(2\sigma^2)$ y cambiado por una función de $\sigma$. Una manera de hacer la cita correcta es la de asumir que no se considera $\sigma$ parte del "modelo"--$\sigma$ debe ser determinado de alguna manera, independientemente de los datos. En ese caso, las diferencias entre la media de los errores cuadráticos son proporcionales a las diferencias entre las entropías o registro de las probabilidades, haciendo que los tres equivalente para el ajuste del modelo a los efectos.
(Normalmente, aunque, $\sigma = \sigma(x)$ es apto como parte del proceso de modelado, en el que caso de que la cita no sería muy correcto.)