Como ejemplo, en la imagen anterior se muestra una GRU sencilla. Las ecuaciones de actualización son:
\begin{aligned}z_{t}&=\sigma _{g}(W_{z}x_{t}+U_{z}h_{t-1}+b_{z})\\r_{t}&=\sigma _{g}(W_{r}x_{t}+U_{r}h_{t-1}+b_{r})\\{\hat {h}}_{t}&=\phi _{h}(W_{h}x_{t}+U_{h}(r_{t}\odot h_{t-1})+b_{h})\\h_{t}&=(1-z_{t})\odot h_{t-1}+z_{t}\odot {\hat {h}}_{t}\end{aligned}
-
Pregunta 1: ¿Cómo se elige la dimensión de $h_0$ ?
-
Pregunta 2: ¿Es el producto de $W_z x_t$ un vector (de dimensión n) o un escalar (1 dimensión). Porque estamos tomando la función logística de este producto, así que me pregunto si esta operación se realiza por elementos en el caso $W_z x_t$ es un vector. Además, ¿significa esto que el $1-z_t$ es una resta de vectores, por ejemplo, $1$ es el vector de unos.
-
Pregunta 3: ¿Cómo se elige la dimensión de $W_z, U_z$ (y $W_r, U_r$ etc.) al inicializarlos?