Possibility of using large language models in time series prediction

Thesis title: Možnost využití velkých jazykových modelů v předpovědi časových řad
Author: Šmehlík, Oldřich
Thesis type: Diplomová práce
Supervisor: Zimmermann, Pavel
Opponents: Fojtík, Jan
Thesis language: Česky
Abstract:
Tato diplomová práce zkoumá, jak lze předpovědi časových řad zlepšit použitím velkých jazykových modelů. Je zvolena diskrétní časová řada ceny EUR/USD v pracovních dnech a dále dva zdroje článků, jejichž očekávaný vliv na cenu EUR/USD je kvantifikován, fxnewssite reprezentující odborné zpravodajství a bbc reprezentující obecné zpravodajství. Je zkonstruován předfiltr vlivu umožňující výběr relevantních článků z obecného zpravodajství. Analyzováno je 2 krát (bez předfiltru a s předfiltrem) 444 článků z každého zdroje (fxnewssite a bbc) v období mezi 01. 10. 2021 a 31. 12. 2023. Očekávaný vliv článků na cenu EUR/USD je kvantifikován velkým jazykovým modelem gpt-3.5-turbo-1106 se čtyřmi vytvořenými šablonami. Pro časovou řadu a vybrané kombinace šablon jejichž vlivy jsou zahrnuty do modelu jsou natrénovány dva modely strojového učení, základní pouze s cenami a endogenními proměnnými získanými z data a cen tvořením vlastností a druhý rozšířený o atributy vytvořené velkým jazykovým modelem. Rozdíl v predikci je změřen. V analyzovaných případech kdy byl k dispozici relevantní a kvalitní textový zdroj fxnewssite, bylo dosaženo zlepšení pětidenní predikce v rozsahu od 12.38 do 15.35 procent při použití vlivů napočítaných vždy jednou šablonou bez zapojení předfiltru vlivu. U zdroje bbc způsobí předfiltr vlivu posun průměrné predikce z jednotlivých šablon ze zlepšení o 0.2675 procent na zlepšení o 2.0125 procent.
Keywords: časové řady; předpověď; velké jazykové modely; strojové učení; python
Thesis title: Possibility of using large language models in time series prediction
Author: Šmehlík, Oldřich
Thesis type: Diploma thesis
Supervisor: Zimmermann, Pavel
Opponents: Fojtík, Jan
Thesis language: Česky
Abstract:
This thesis investigates how time series prediction can be improved by using large language models. Discrete time series with EUR/USD workday price is chosen, furthermore two article sources whose influence on EUR/USD price is quantified are chosen, fxnewssite representing specialized news and bbc representing general news. Influence prefilter is constructed allowing chosing relevant articles from general news. Two times (without and with influence prefilter) 444 articles from each source (fxnewssite and bbc) in period between 01. 10. 2021 and 31. 12. 2023. are analyzed. Expected influence of articles on EUR/USD price is quantified by large language model gpt-3.5-turbo-1106 with four created templates. Two machine learning models are trained for time series and selected combination of templates, base model only with prices and endogenous variables created by feature engineering from dates and prices and enhanced model extended by attributes created using large language model. The difference in prediction is measured. In the cases analysed, where relevant and high-quality textual source fxnewssite was available, an improvement of five day forecast was achieved ranging from 12.38 to 15.35 percent when using influences calculated always by one template without using the influence prefilter. For bbc source the influence prefilter causes shift of average prediction from individual templates from improving by 0.2675 percent to improving by 2.0125 percent.
Keywords: forecasting; large language models; machine learning; time series; python

Information about study

Study programme: Data a analytika pro business
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 20. 11. 2023
Date of submission: 26. 6. 2024
Date of defense: 2024

Files for download

The files will be available after the defense of the thesis.

    Last update: