He leído algunos artículos sobre el comercio utilizando el aprendizaje por refuerzo recurrente como este . El punto que no entiendo del todo es cómo construir la función de coste/pérdida.
En el artículo, el Sharpe Ratio es una de las opciones que podemos dejar que el RNN minimice. La definición de Sharpe Ratio es $\frac{Average(R_t)}{StandardDeviation(R_t)}$ donde $R_t$ es el rendimiento de la inversión. Así que asumo que esto $R_t$ (retorno) aquí está el recompensa del aprendizaje por refuerzo.
El objetivo del algoritmo es maximizar el coeficiente de solvencia, así que mi pregunta es, ¿cómo debo construir la estructura de la red neuronal/el marco de aprendizaje por refuerzo para implementar este método de ascenso de gradiente para maximizar el coeficiente de solvencia?
En concreto, los datos de entrada son series de precios, ¿cuáles deberían ser los datos de salida? ¿Cuál debe ser la función de coste/pérdida?