Tengo una duda sobre cómo se entrena exactamente la función de pérdida de una red Q-Learning profunda. Estoy utilizando una red feedforward de 2 capas con capa de salida lineal y capas ocultas relu.
- Supongamos que tengo 4 acciones posibles. Así, la salida de mi para el estado actual $s_t$ es $Q(s_t) \in \mathbb{R}^4$ . Para hacerlo más concreto supongamos $Q(s_t) = [1.3, 0.4, 4.3, 1.5]$
- Ahora emprendo la acción $a_t = 2$ correspondiente al valor $4.3$ Es decir la 3ª acción, y alcanzar un nuevo estado $s_{t+1}$ .
- A continuación, calculo el pase hacia delante con el estado $s_{t+1}$ y digamos que obtengo los siguientes valores en la capa de salida $Q(s_{t+1}) = [9.1, 2.4, 0.1, 0.3]$ . También digamos que la recompensa $r_t = 2$ y $\gamma = 1.0$ .
-
Es la pérdida dada por:
$\mathcal{L} = (11.1- 4.3)^2$
O
$\mathcal{L} = \frac{1}{4}\sum_{i=0}^3 ([11.1, 11.1, 11.1, 11.1] - [1.3, 0.4, 4.3, 1.5])^2$
O
$\mathcal{L} = \frac{1}{4}\sum_{i=0}^3 ([11.1, 4.4, 2.1, 2.3] - [1.3, 0.4, 4.3, 1.5])^2$
Gracias, siento haber tenido que escribir esto de una manera muy básica... Estoy confundido por toda la notación. ( Creo que la respuesta correcta es la segunda...)