Reinforcement learning for financial trading

Thesis title: Reinforcement learning for financial trading
Author: Rozbeiko, Ruslan
Thesis type: Diploma thesis
Supervisor: Fičura, Milan
Opponents: Jouda, Jan
Thesis language: English
Abstract:
The integration of reinforcement learning into financial trading is an emerging area of study, building on the success RL has seen in domains like robotics and gaming. This thesis delves into RL's principles and explores its potential for crafting trading strategies within the financial markets. The research focuses on the Proximal Policy Optimization algorithm enhanced with Long Short-Term Memory networks to test its effectiveness on historical Bitcoin price data. PPO, an advanced learning algorithm, coupled with LSTM's ability to remember long-term patterns, is particularly well-suited to the task of navigating the complexities of financial time series. The strategies developed were backtested against historical Bitcoin price data to measure their effectiveness and potential for outperforming standard market benchmarks. The assessment of three distinct reward functions provided insight into how these strategies adapt to and perform under different market conditions. The results indicated that none of the reward functions consistently outperformed the benchmark throughout the experiments. However, certain reward functions demonstrated notable adaptability to significant market shifts. This adaptability suggests that while raw performance metrics may not always surpass benchmarks, the strategic value of RL lies in its potential to adjust to changing market environments, a critical capability for managing risk and pursuing long-term profitability in financial trading.
Keywords: financial trading; PPO; Reinforcement learning
Thesis title: Reinforcement learning pro finanční trading
Author: Rozbeiko, Ruslan
Thesis type: Diplomová práce
Supervisor: Fičura, Milan
Opponents: Jouda, Jan
Thesis language: English
Abstract:
Integrace reinforcement learning do finančního obchodování je rozvíjející se oblastí studia, navazující na úspěch RL v oblastech jako robotika a hry. Tato práce se zabývá principy RL a zkoumá jeho potenciál pro tvorbu obchodních strategií v rámci finančních trhů. Výzkum se zaměřuje na algoritmus Proximal Policy Optimization (PPO) rozšířený sítěmi Long Short-Term Memory (LSTM) k ověření jeho účinnosti na historických datech Bitcoinu. PPO spolu se schopností LSTM pamatovat si dlouhodobé vztahy, je zvláště vhodný pro navigaci komplexností finančních časových řad. Vyvinuté strategie byly zpětně otestovány na historických datech Bitcoinu k měření jejich účinnosti a potenciálu pro překonání standardních tržních benchmarků. Hodnocení tří odlišných odměnových funkcí poskytlo náhled na to, jak tyto strategie adaptují a jak se chovají v různých tržních podmínkách. Výsledky naznačily, že žádná z odměnových funkcí konzistentně nepřekonala benchmark po celou dobu experimentů. Nicméně, některé odměnové funkce prokázaly pozoruhodnou adaptabilitu na významné změny na trhu. Tato adaptabilita naznačuje, že zatímco hrubé výkonnostní metriky nemusí vždy překonat benchmarky, strategická hodnota RL spočívá v jeho potenciálu přizpůsobit se měnícím se tržním prostředím, což je kritická schopnost pro řízení rizik a prosazování dlouhodobé ziskovosti při finančním obchodování.
Keywords: PPO; finanční trading; Reinforcement learning

Information about study

Study programme: Finanční inženýrství
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Finance and Accounting
Department: Department of Banking and Insurance

Information on submission and defense

Date of assignment: 12. 3. 2021
Date of submission: 8. 5. 2024
Date of defense: 13. 6. 2024
Identifier in the InSIS system: https://insis.vse.cz/zp/76633/podrobnosti

Files for download

    Last update: