Využití metod strojového učení pro predikci výsledků fotbalových zápasů

Název práce: Utilization of machine learning methods for predicting the outcomes of football matches
Autor(ka) práce: Fedorík, Martin
Typ práce: Bachelor thesis
Vedoucí práce: Sokol, Ondřej
Oponenti práce: Kliegr, Tomáš
Jazyk práce: English
Abstrakt:
This bachelor’s thesis investigates the use of machine learning to predict football match outcomes, aiming to achieve high predictive accuracy and compare it with bookmakers’ accuracy. A secondary goal was to evaluate the potential profitability of the models. We utilized a novel comprehensive dataset with detailed statistics, including expected goals (xG), to enhance predictive accuracy. The dataset covered seven English Premier League (EPL) seasons, with the 2023/2024 season as the test set. Extensive feature engineering was conducted, resulting in 134 features, of which 52 were selected using recursive feature elimination with XGBoost. Hyperparameters for XGBoost and Random Forest models were optimized through time-based cross-validation and random search. The models achieved an accuracy of 58.4% (Random Forest) and 58.6% (XGBoost) on 370 matches from the 2023/2024 EPL season, closely matching the bookmakers’ accuracy of 58.9%. A significant shortcoming was the models’ inability to predict draws, likely due to class imbalance and the use of accuracy as the evaluation metric for feature selection and hyperparameter tuning. Theoretical profitability was assessed by betting a constant amount based on predictions, but it was not statistically significant at the 5% level. Future research could incorporate player-level features, dive deeper into the problem of draw predictions and explore more sophisticated betting strategies to achieve statistically significant profits.
Klíčová slova: machine learning; football; match prediction; betting; sports
Název práce: Využití metod strojového učení pro predikci výsledků fotbalových zápasů
Autor(ka) práce: Fedorík, Martin
Typ práce: Bakalářská práce
Vedoucí práce: Sokol, Ondřej
Oponenti práce: Kliegr, Tomáš
Jazyk práce: English
Abstrakt:
Tato bakalářská práce zkoumá využití strojového učení k predikci výsledků fotbalových zápasů s cílem dosáhnout vysoké prediktivní správnosti a porovnat ji se správností sázkových kanceláří. Sekundárním cílem bylo zhodnotit potenciální ziskovost modelů. Byla použita nová komplexní datová sada s podrobnými statistikami, včetně očekávaných gólů (xG), k zvýšení prediktivní správnosti. Datová sada zahrnovala sedm sezón anglické Premier League (EPL) s tím, že sezóna 2023/2024 sloužila jako testovací sada. Bylo provedeno rozsáhlé generování příznaků, které vedlo k 134 příznakům, z nichž bylo 52 vybráno pomocí rekurzivní eliminace příznaků s XGBoost. Hyperparametry pro modely XGBoost a Random Forest byly optimalizovány pomocí časově založené křížové validace a náhodného vyhledávání. Modely dosáhly správnosti 58.4% (Random Forest) a 58.6% (XGBoost) na 370 zápasech sezóny EPL 2023/2024, což se blížilo správnosti sázkových kanceláří 58.9%. Významnou slabinou byla neschopnost modelů předpovídat remízy, pravděpodobně kvůli nevyváženosti tříd a použití správnosti jako hodnotící metriky pro výběr příznaků a ladění hyperparametrů. Teoretická ziskovost byla posuzována sázením konstantní částky na základě predikcí, ale nebyla statisticky významná na 5% hladině významnosti. Budoucí výzkum by mohl zahrnout příznaky na úrovni hráčů, hlouběji se podívat na problematiku predikce remíz a prozkoumat sofistikovanější sázkové strategie k dosažení statisticky významných zisků.
Klíčová slova: fotbal; predikce zápasů; sázení; sport; strojové učení

Informace o studiu

Studijní program / obor: Data Analytics
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra ekonometrie

Informace o odevzdání a obhajobě

Datum zadání práce: 21. 1. 2024
Datum podání práce: 27. 6. 2024
Datum obhajoby: 2024

Soubory ke stažení

Soubory budou k dispozici až po obhajobě práce.

    Poslední aktualizace: