46 votos

¿Por qué es el error cuadrado medio la entropía cruzada entre la distribución empírica y un modelo gaussiano?

En 5.5, Aprendizaje Profundo (por Ian Goodfellow, Yoshua Bengio y Aarón Courville), indica que

Cualquier pérdida que consta de un negativo de la log-verosimilitud es una cruz de entropía entre la distribución empírica definida por el conjunto de entrenamiento y de la distribución de probabilidad definida por el modelo. Por ejemplo, el error cuadrático es la cruz de entropía entre la distribución empírica y un modelo Gaussiano.

No puedo entender por qué son equivalentes y los autores no expandir en el punto.

46voto

jldugger Puntos 7490

Deje que los datos se $\mathbf{x}=(x_1, \ldots, x_n)$. Escribir $F(\mathbf{x})$ para la distribución empírica. Por definición, para cualquier función de $f$,

$$\mathbb{E}_{F(\mathbf{x})}[f(X)] = \frac{1}{n}\sum_{i=1}^n f(x_i).$$

Deje que el modelo de $M$ han densidad de $e^{f(x)}$ donde $f$ se define en el apoyo de la modelo. La cruz-la entropía de $F(\mathbf{x})$ $M$ se define como

$$H(F(\mathbf{x}), M) = -\mathbb{E}_{F(\mathbf{x})}[\log(e^{f(X)}] = -\mathbb{E}_{F(\mathbf{x})}[f(X)] =-\frac{1}{n}\sum_{i=1}^n f(x_i).\tag{1}$$

Asumiendo $x$ es una muestra aleatoria simple, su registro negativo de probabilidad es

$$-\log(L(\mathbf{x}))=-\log \prod_{i=1}^n e^{f(x_i)} = -\sum_{i=1}^n f(x_i)\tag{2}$$

en virtud de las propiedades de los logaritmos (convertir los productos de la suma). La expresión de $(2)$ es una constante $n$ veces la expresión $(1)$. Debido a la pérdida de funciones se utilizan en las estadísticas sólo mediante la comparación de ellos, no hace ninguna diferencia que uno es un (positivo) constante de los tiempos de los otros. Es en este sentido que la negativa de registro de probabilidad", es una" cruz de entropía en la comilla.


Se necesita un poco más de imaginación para justificar la segunda afirmación de la cita. La conexión con el cuadrado de error es claro, porque para un "modelo Gaussiano" que predice los valores de $p(x)$ en puntos $x$, el valor de $f$ en cualquier punto es

$$f(x; p, \sigma) = -\frac{1}{2}\left(\log(2\pi \sigma^2) + \frac{(x-p(x))^2}{\sigma^2}\right),$$

cual es el error cuadrático $(x-p(x))^2$ pero reescalado por $1/(2\sigma^2)$ y cambiado por una función de $\sigma$. Una manera de hacer la cita correcta es la de asumir que no se considera $\sigma$ parte del "modelo"--$\sigma$ debe ser determinado de alguna manera, independientemente de los datos. En ese caso, las diferencias entre la media de los errores cuadráticos son proporcionales a las diferencias entre las entropías o registro de las probabilidades, haciendo que los tres equivalente para el ajuste del modelo a los efectos.

(Normalmente, aunque, $\sigma = \sigma(x)$ es apto como parte del proceso de modelado, en el que caso de que la cita no sería muy correcto.)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X