Las ReLUs mejoran las máquinas de Boltzmann restringidas

Question

Las ReLUs mejoran las máquinas de Boltzmann restringidas

Preguntado el 7 de Marzo, 2017: Cuando se hizo la pregunta
255 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Esta pregunta es sobre el uso de Unidades Lineales Rectificadas como unidades ocultas en Máquinas de Boltzmann Restringidas.

En El documento de Nair y Hinton Se propone el uso de ReLUs como unidades ocultas. En la sección 1, discuten el uso de unidades Bernoulli y Gaussianas (nada nuevo aquí). Proporcionan la energía de un RBM con unidades ocultas guasianas como

$$E(\textbf{v, h}) = \sum \frac{(v_i-b_i)^2}{2\sigma_i^2} - \sum b_j h_j - \sum \frac{v_i}{\sigma_i} h_j w_{ij}.$$

El muestreo de las unidades ocultas es sencillo, ya que es fácil interpretar la salida de una función sigmoidea como una probabilidad.

En la sección 2 introducen las ReLU como unidades ocultas. Hay dos cosas que no entiendo

¿Cómo debería cambiar la función energética?
¿Cómo debe interpretarse max(0,x) como una probabilidad?

Preguntado el 7 de Marzo, 2017 por StarSkiller73

Answer 1

1 Respuestas

Answer 2

1voto

mclaughlinj Puntos 1099

Tengo que estar de acuerdo en que la exposición de este documento fue bastante escasa. Creo que para responder a estas dos preguntas hay que repasar un poco los trabajos anteriores, pero puedes saltar hasta el final si sólo quieres las respuestas.

Recordemos la función de energía de los RBM binarios.

$$E(v,h) = v^TWh + v^Ta + h^Tb $$

En el trabajo de RBM binomial, duplican cada unidad visible un montón de veces, y en consecuencia el sesgo $a_i$ de cada unidad visible y las filas $W_i$ correspondientes a las "conexiones" con las unidades ocultas también se copian.

Ahora, dejemos que $W'$ , $a'$ y $v'$ denotan los valores debidamente duplicados de $W$ , $a$ y $v$ . Lo más importante es que la función de energía no cambia aparte de intercambiar algunos símbolos:

$$E(v',h) = v'^TW'h + v'^Ta' + h^Tb $$

Desde el punto de vista de la implementación y el cómputo, es bastante derrochador hacer un cómputo extra para todas esas unidades. Podríamos preguntarnos si podemos ahorrar algún esfuerzo representando $K$ duplicados de una unidad binaria utilizando una única variable que sólo almacena cuántos de esos $K$ duplicados se establecen en 1 (y cuántos se establecen en 0). Utilizaré $v^*$ para denotar los duplicados combinados: en otras palabras, $v^*$ es el suma de cada grupo de $K$ duplicados en $v'$

Para ello, tenemos que asegurarnos de que todavía podemos muestrear unidades ocultas dadas unidades visibles y viceversa, lo cual es un requisito previo para ejecutar la divergencia contrastiva.

El muestreo oculto de lo visible es fácil porque $P(h=1|v') = \sigma(b+W'^Tv') = \sigma(b+Wv^*)$

El muestreo de lo visible a lo oculto es un poco más complicado. Lo tenemos: $P(v'=1|h) = \sigma(a'+W'h)$ . Ahora bien, tenga en cuenta que $v^*|h \sim \text{Binomial}(K, \sigma(a+Wh))$ . Al agrupar las unidades duplicadas, hemos pasado del muestreo de una distribución bernoulli al muestreo de una binomial.

Nótese que el gradiente de la probabilidad logarítmica

$$\frac{\partial \log p(v)}{\partial W} = E_\text{data}[vh^T] - E_\text{model}[vh^T]$$

permanece sin cambios con nuestras unidades binomiales.

Ahora supongamos que después de duplicar cada unidad $K$ veces, añadimos diferentes sesgos fijos a las unidades duplicadas: el primer sesgo duplicado se compensa con $-0.5$ el segundo por $-1.5$ El tercero $-2.5$ y así sucesivamente. De hecho, ¿por qué detenerse en $K$ duplicados -- por qué no hacer infinitos duplicados de cada unidad. Esto no es tan descabellado como podría parecer en un principio, ya que cada duplicado sucesivo tiene una mayor compensación de sesgo negativo, por lo que tiene una probabilidad insignificante de llegar a encenderse.

Mientras que en el caso binomial era bueno que pudiéramos agrupar las unidades duplicadas, aquí es realmente crucial, ya que calcular con infinitas unidades binarias no es exactamente posible. Mientras que en el caso binomial la suma de las unidades duplicadas seguía una distribución binomial, aquí es posible demostrar que la suma de las unidades duplicadas sigue aproximadamente una distribución

$$\text{relu}(\mathcal{N}(x,\sigma(x)))$$

Tenga en cuenta que $\sigma$ aquí denota la función sigmoidea y no la desviación estándar. Así que en lugar de muestrear de una distribución binomial, muestreamos de esta distribución normal relu'd, y todo lo demás procede como se ha descrito anteriormente.

Ahora que entendemos lo que significa exactamente tener activaciones relu en un RBM, podemos volver a las preguntas en cuestión.

¿Cómo debería cambiar la función energética?

Ya hemos visto que no cambia en absoluto.

¿Cómo debe interpretarse max(0,x) como una probabilidad?

No debería, y el modelo RBM de relu nunca utiliza relu como valor de probabilidad de ningún tipo. relu sólo se utiliza para aproximar el muestreo de unidades binarias infinitas.

Respondido el 7 de Junio, 2019 por mclaughlinj (1099 Puntos )

Las ReLUs mejoran las máquinas de Boltzmann restringidas

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Las ReLUs mejoran las máquinas de Boltzmann restringidas

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: