Tengo que estar de acuerdo en que la exposición de este documento fue bastante escasa. Creo que para responder a estas dos preguntas hay que repasar un poco los trabajos anteriores, pero puedes saltar hasta el final si sólo quieres las respuestas.
Recordemos la función de energía de los RBM binarios.
$$E(v,h) = v^TWh + v^Ta + h^Tb $$
En el trabajo de RBM binomial, duplican cada unidad visible un montón de veces, y en consecuencia el sesgo $a_i$ de cada unidad visible y las filas $W_i$ correspondientes a las "conexiones" con las unidades ocultas también se copian.
Ahora, dejemos que $W'$ , $a'$ y $v'$ denotan los valores debidamente duplicados de $W$ , $a$ y $v$ . Lo más importante es que la función de energía no cambia aparte de intercambiar algunos símbolos:
$$E(v',h) = v'^TW'h + v'^Ta' + h^Tb $$
Desde el punto de vista de la implementación y el cómputo, es bastante derrochador hacer un cómputo extra para todas esas unidades. Podríamos preguntarnos si podemos ahorrar algún esfuerzo representando $K$ duplicados de una unidad binaria utilizando una única variable que sólo almacena cuántos de esos $K$ duplicados se establecen en 1 (y cuántos se establecen en 0). Utilizaré $v^*$ para denotar los duplicados combinados: en otras palabras, $v^*$ es el suma de cada grupo de $K$ duplicados en $v'$
Para ello, tenemos que asegurarnos de que todavía podemos muestrear unidades ocultas dadas unidades visibles y viceversa, lo cual es un requisito previo para ejecutar la divergencia contrastiva.
El muestreo oculto de lo visible es fácil porque $P(h=1|v') = \sigma(b+W'^Tv') = \sigma(b+Wv^*)$
El muestreo de lo visible a lo oculto es un poco más complicado. Lo tenemos: $P(v'=1|h) = \sigma(a'+W'h)$ . Ahora bien, tenga en cuenta que $v^*|h \sim \text{Binomial}(K, \sigma(a+Wh))$ . Al agrupar las unidades duplicadas, hemos pasado del muestreo de una distribución bernoulli al muestreo de una binomial.
Nótese que el gradiente de la probabilidad logarítmica
$$\frac{\partial \log p(v)}{\partial W} = E_\text{data}[vh^T] - E_\text{model}[vh^T]$$
permanece sin cambios con nuestras unidades binomiales.
Ahora supongamos que después de duplicar cada unidad $K$ veces, añadimos diferentes sesgos fijos a las unidades duplicadas: el primer sesgo duplicado se compensa con $-0.5$ el segundo por $-1.5$ El tercero $-2.5$ y así sucesivamente. De hecho, ¿por qué detenerse en $K$ duplicados -- por qué no hacer infinitos duplicados de cada unidad. Esto no es tan descabellado como podría parecer en un principio, ya que cada duplicado sucesivo tiene una mayor compensación de sesgo negativo, por lo que tiene una probabilidad insignificante de llegar a encenderse.
Mientras que en el caso binomial era bueno que pudiéramos agrupar las unidades duplicadas, aquí es realmente crucial, ya que calcular con infinitas unidades binarias no es exactamente posible. Mientras que en el caso binomial la suma de las unidades duplicadas seguía una distribución binomial, aquí es posible demostrar que la suma de las unidades duplicadas sigue aproximadamente una distribución
$$\text{relu}(\mathcal{N}(x,\sigma(x)))$$
Tenga en cuenta que $\sigma$ aquí denota la función sigmoidea y no la desviación estándar. Así que en lugar de muestrear de una distribución binomial, muestreamos de esta distribución normal relu'd, y todo lo demás procede como se ha descrito anteriormente.
Ahora que entendemos lo que significa exactamente tener activaciones relu en un RBM, podemos volver a las preguntas en cuestión.
¿Cómo debería cambiar la función energética?
Ya hemos visto que no cambia en absoluto.
¿Cómo debe interpretarse max(0,x) como una probabilidad?
No debería, y el modelo RBM de relu nunca utiliza relu como valor de probabilidad de ningún tipo. relu sólo se utiliza para aproximar el muestreo de unidades binarias infinitas.