4 votos

¿Por qué los términos en L2 Probabilidad regularizada representan distribuciones gaussianas?

El estudio de aprendizaje automático, que me he hecho a el punto donde he exponentiated mi L2 de Regularización de la función de pérdida. Comenzamos con un simple por mínimos cuadrados ordinarios de la pérdida de la función, y se añade un término de penalización proporcional a los cuadrados de los pesos de los coeficientes, como se ve a continuación:

starting loss function

Debido a la minimización de la menos el cuadrado de la función de pérdida es igual minimizar el negativo del logaritmo de la probabilidad, se volcó de los signos con el fin de que la maximización del negativo de la función de pérdida es igual a la maximización del registro de la probabilidad. A continuación, hemos exponentiated para deshacerse de la función de registro, dando lugar a la $\exp{\{-J\}} $plazo de abajo.

exponentiation

Ahora me han dicho que estos representan dos gaussianas. Tengo las dos expresiones siguientes:

likelihood

Sé que $J = $ ($-$ registro de probabilidad), lo $ -J =$ (log likelihood), lo $\exp{\{-J\}} = $ de probabilidad. Lo que me confunde es ¿cómo las expresiones en la primera imagen representa la gaussianas de abajo? O más bien, ¿por qué/¿puedo añadir $\frac{1}{2\sigma^2}$ dentro de la exponenciación y normalizar por el constante? Me falta la conexión entre ellos.

Nota: como yo estaba siguiendo mi material pensé que tenía la conexión, pero tengo empantanado en algunos cálculos y creo que he perdido de vista la conexión aquí.

Nota: Esta pregunta de la siguiente manera desde mi otro post en el que yo estaba tratando de demostrar que lo que el instructor de los estados, que es que la segunda expresión en la $\exp{\{-J\}}$ plazo representa una Gaussiana con $\mu = 0$$\sigma^2 = \frac{1}{\lambda}$, pero yo estaba recibiendo una respuesta diferente. Puedo demostrar esto acerca de la probabilidad Anterior en la parte inferior, pero el instructor dijo refiriéndose a la segunda expresión en $\exp{\{-J\}}$

3voto

Johnny Puntos 151

Estas expresiones, para la posterior y la (exponentiated) la pérdida de la función, no son matemáticamente idénticas, pero en este caso son computacionalmente equivalentes, ya que sólo están interesados en encontrar el máximo de la parte posterior (o mínimo de la función de pérdida). Porque no importa si usted de encontrar el máximo de $f(x)$ o de $a\times f(x)$: ambas funciones tienen su máximo en exactamente el mismo valor de $x$ (o uno tiene un mínimo, si $a$ es negativo), y normalmente no le importa lo alto que es el máximo.

Esto también significa que si usted sólo conoce $a\times f(x)$ (es decir, sólo se conoce su función de destino hasta una constante de multiplicación), que está bien. Usted no necesita preocuparse de conseguir la ampliación constante de la derecha.

Esto explica por qué, para los fines de optimización w.r.t. $w$, podemos ignorar la normalización de las constantes de $\frac{1}{\sqrt{2\pi\sigma^2}}$$\sqrt{\frac{\lambda}{2\pi}}$, y de modo que no aparecen en la función de pérdida (porque ¿por qué calcular si ellos no importa), pero que no aparecen en la estricta definición matemática de la probabilidad y la previa.

Que lo deja a uno más de la discrepancia, que es la aparición de $\frac{1}{2\pi\sigma^2}$ en la probabilidad (pero no en la función de pérdida) y de $\frac{\lambda}{2}$ en la previa (vs $\lambda$ en la pérdida). Esto tiene una razón similar, debido a que estos valores son los pesos que determinan la importancia de la previa y de los puntos de datos en la probabilidad. Pero sólo la atención sobre la relativa importancia de estas cosas w.r.t. el uno al otro. Y desde $\sigma$ es constante para todos los puntos de datos, eso significa que el único parámetro relevante que nos queda es la fuerza de la anterior, relativa a la probabilidad, que podemos describir con una sola escalares $\lambda$.

Así que en resumen, la función de pérdida conserva sólo los correspondientes bits de la previa y la probabilidad, que es la razón por la que no se puede reconstruir completamente la previa y la probabilidad de la pérdida. En realidad tiene más sentido ir en la otra dirección: la de tomar el registro de la parte posterior (es decir, el producto de la probabilidad de $\times$ anterior) y, a continuación, colocar todos los términos que usted no necesita para el problema de optimización, y usted debe terminar con la pérdida de la función que usted está familiarizado con.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X