Recurrente de aprendizaje por refuerzo (LRD) se introdujo por primera vez para el entrenamiento de la red neuronal sistemas de trading en 1996 ( recurrent
significa que la salida anterior se introduce en el modelo como una parte de la entrada. ) y pronto fue extendido a negociación en un mercado de FX.
La LRD técnica se ha encontrado para ser un éxito de aprendizaje de la máquina técnica financiera para la construcción de sistemas de trading.
La LRD enfoque se diferencia claramente de la programación dinámica y de refuerzo de algoritmos tales como TD-aprendizaje y Q-aprendizaje, que trata de estimar un valor de la función para el problema de control.
La LRD marco, permite crear el simple y elegante problema de la representación, evita los Botones de la maldición de la dimensionalidad y ofrece atractivas ventajas en eficiencia.
Con LRD, sistemas de comercio puede ser optimizado mediante la maximización de funciones de rendimiento, U( ), como profit
(retorno después de los costos de transacción), wealth
, las funciones de utilidad de la riqueza o el riesgo ajustado de los ratios de rendimiento como el Sharpe ratio
.
Referencias:
El Aprendizaje por refuerzo para el Comercio
El Aprendizaje por refuerzo de los Sistemas de Negociación y Carteras
FX trading a través de recurrentes de aprendizaje por refuerzo
El Comercio de acciones con la recurrencia de Aprendizaje por Refuerzo (LRD)
Algoritmo de Trading utilizando Q-Aprendizaje y Recurrente de Aprendizaje por Refuerzo
LA EXPLORACIÓN DE ALGORITMOS AUTOMATIZADOS DE TRADING DE FX – CONSTRUCCIÓN DE UN MODELO HÍBRIDO