Možnost využití velkých jazykových modelů v předpovědi časových řad
Název práce: | Možnost využití velkých jazykových modelů v předpovědi časových řad |
---|---|
Autor(ka) práce: | Šmehlík, Oldřich |
Typ práce: | Diplomová práce |
Vedoucí práce: | Zimmermann, Pavel |
Oponenti práce: | Fojtík, Jan |
Jazyk práce: | Česky |
Abstrakt: | Tato diplomová práce zkoumá, jak lze předpovědi časových řad zlepšit použitím velkých jazykových modelů. Je zvolena diskrétní časová řada ceny EUR/USD v pracovních dnech a dále dva zdroje článků, jejichž očekávaný vliv na cenu EUR/USD je kvantifikován, fxnewssite reprezentující odborné zpravodajství a bbc reprezentující obecné zpravodajství. Je zkonstruován předfiltr vlivu umožňující výběr relevantních článků z obecného zpravodajství. Analyzováno je 2 krát (bez předfiltru a s předfiltrem) 444 článků z každého zdroje (fxnewssite a bbc) v období mezi 01. 10. 2021 a 31. 12. 2023. Očekávaný vliv článků na cenu EUR/USD je kvantifikován velkým jazykovým modelem gpt-3.5-turbo-1106 se čtyřmi vytvořenými šablonami. Pro časovou řadu a vybrané kombinace šablon jejichž vlivy jsou zahrnuty do modelu jsou natrénovány dva modely strojového učení, základní pouze s cenami a endogenními proměnnými získanými z data a cen tvořením vlastností a druhý rozšířený o atributy vytvořené velkým jazykovým modelem. Rozdíl v predikci je změřen. V analyzovaných případech kdy byl k dispozici relevantní a kvalitní textový zdroj fxnewssite, bylo dosaženo zlepšení pětidenní predikce v rozsahu od 12.38 do 15.35 procent při použití vlivů napočítaných vždy jednou šablonou bez zapojení předfiltru vlivu. U zdroje bbc způsobí předfiltr vlivu posun průměrné predikce z jednotlivých šablon ze zlepšení o 0.2675 procent na zlepšení o 2.0125 procent. |
Klíčová slova: | časové řady; předpověď; velké jazykové modely; strojové učení; python |
Název práce: | Possibility of using large language models in time series prediction |
---|---|
Autor(ka) práce: | Šmehlík, Oldřich |
Typ práce: | Diploma thesis |
Vedoucí práce: | Zimmermann, Pavel |
Oponenti práce: | Fojtík, Jan |
Jazyk práce: | Česky |
Abstrakt: | This thesis investigates how time series prediction can be improved by using large language models. Discrete time series with EUR/USD workday price is chosen, furthermore two article sources whose influence on EUR/USD price is quantified are chosen, fxnewssite representing specialized news and bbc representing general news. Influence prefilter is constructed allowing chosing relevant articles from general news. Two times (without and with influence prefilter) 444 articles from each source (fxnewssite and bbc) in period between 01. 10. 2021 and 31. 12. 2023. are analyzed. Expected influence of articles on EUR/USD price is quantified by large language model gpt-3.5-turbo-1106 with four created templates. Two machine learning models are trained for time series and selected combination of templates, base model only with prices and endogenous variables created by feature engineering from dates and prices and enhanced model extended by attributes created using large language model. The difference in prediction is measured. In the cases analysed, where relevant and high-quality textual source fxnewssite was available, an improvement of five day forecast was achieved ranging from 12.38 to 15.35 percent when using influences calculated always by one template without using the influence prefilter. For bbc source the influence prefilter causes shift of average prediction from individual templates from improving by 0.2675 percent to improving by 2.0125 percent. |
Klíčová slova: | forecasting; large language models; machine learning; time series; python |
Informace o studiu
Studijní program / obor: | Data a analytika pro business |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačních technologií |
Informace o odevzdání a obhajobě
Datum zadání práce: | 20. 11. 2023 |
---|---|
Datum podání práce: | 26. 6. 2024 |
Datum obhajoby: | 7. 10. 2024 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/86576/podrobnosti |