Možnost využití velkých jazykových modelů v předpovědi časových řad

Název práce: Možnost využití velkých jazykových modelů v předpovědi časových řad
Autor(ka) práce: Šmehlík, Oldřich
Typ práce: Diplomová práce
Vedoucí práce: Zimmermann, Pavel
Oponenti práce: Fojtík, Jan
Jazyk práce: Česky
Abstrakt:
Tato diplomová práce zkoumá, jak lze předpovědi časových řad zlepšit použitím velkých jazykových modelů. Je zvolena diskrétní časová řada ceny EUR/USD v pracovních dnech a dále dva zdroje článků, jejichž očekávaný vliv na cenu EUR/USD je kvantifikován, fxnewssite reprezentující odborné zpravodajství a bbc reprezentující obecné zpravodajství. Je zkonstruován předfiltr vlivu umožňující výběr relevantních článků z obecného zpravodajství. Analyzováno je 2 krát (bez předfiltru a s předfiltrem) 444 článků z každého zdroje (fxnewssite a bbc) v období mezi 01. 10. 2021 a 31. 12. 2023. Očekávaný vliv článků na cenu EUR/USD je kvantifikován velkým jazykovým modelem gpt-3.5-turbo-1106 se čtyřmi vytvořenými šablonami. Pro časovou řadu a vybrané kombinace šablon jejichž vlivy jsou zahrnuty do modelu jsou natrénovány dva modely strojového učení, základní pouze s cenami a endogenními proměnnými získanými z data a cen tvořením vlastností a druhý rozšířený o atributy vytvořené velkým jazykovým modelem. Rozdíl v predikci je změřen. V analyzovaných případech kdy byl k dispozici relevantní a kvalitní textový zdroj fxnewssite, bylo dosaženo zlepšení pětidenní predikce v rozsahu od 12.38 do 15.35 procent při použití vlivů napočítaných vždy jednou šablonou bez zapojení předfiltru vlivu. U zdroje bbc způsobí předfiltr vlivu posun průměrné predikce z jednotlivých šablon ze zlepšení o 0.2675 procent na zlepšení o 2.0125 procent.
Klíčová slova: časové řady; předpověď; velké jazykové modely; strojové učení; python
Název práce: Possibility of using large language models in time series prediction
Autor(ka) práce: Šmehlík, Oldřich
Typ práce: Diploma thesis
Vedoucí práce: Zimmermann, Pavel
Oponenti práce: Fojtík, Jan
Jazyk práce: Česky
Abstrakt:
This thesis investigates how time series prediction can be improved by using large language models. Discrete time series with EUR/USD workday price is chosen, furthermore two article sources whose influence on EUR/USD price is quantified are chosen, fxnewssite representing specialized news and bbc representing general news. Influence prefilter is constructed allowing chosing relevant articles from general news. Two times (without and with influence prefilter) 444 articles from each source (fxnewssite and bbc) in period between 01. 10. 2021 and 31. 12. 2023. are analyzed. Expected influence of articles on EUR/USD price is quantified by large language model gpt-3.5-turbo-1106 with four created templates. Two machine learning models are trained for time series and selected combination of templates, base model only with prices and endogenous variables created by feature engineering from dates and prices and enhanced model extended by attributes created using large language model. The difference in prediction is measured. In the cases analysed, where relevant and high-quality textual source fxnewssite was available, an improvement of five day forecast was achieved ranging from 12.38 to 15.35 percent when using influences calculated always by one template without using the influence prefilter. For bbc source the influence prefilter causes shift of average prediction from individual templates from improving by 0.2675 percent to improving by 2.0125 percent.
Klíčová slova: forecasting; large language models; machine learning; time series; python

Informace o studiu

Studijní program / obor: Data a analytika pro business
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 20. 11. 2023
Datum podání práce: 26. 6. 2024
Datum obhajoby: 2024

Soubory ke stažení

Soubory budou k dispozici až po obhajobě práce.

    Poslední aktualizace: