Utilization of machine learning methods for predicting the outcomes of football matches

Thesis title: Utilization of machine learning methods for predicting the outcomes of football matches
Author: Fedorík, Martin
Thesis type: Bachelor thesis
Supervisor: Sokol, Ondřej
Opponents: Kliegr, Tomáš
Thesis language: English
Abstract:
This bachelor’s thesis investigates the use of machine learning to predict football match outcomes, aiming to achieve high predictive accuracy and compare it with bookmakers’ accuracy. A secondary goal was to evaluate the potential profitability of the models. We utilized a novel comprehensive dataset with detailed statistics, including expected goals (xG), to enhance predictive accuracy. The dataset covered seven English Premier League (EPL) seasons, with the 2023/2024 season as the test set. Extensive feature engineering was conducted, resulting in 134 features, of which 52 were selected using recursive feature elimination with XGBoost. Hyperparameters for XGBoost and Random Forest models were optimized through time-based cross-validation and random search. The models achieved an accuracy of 58.4% (Random Forest) and 58.6% (XGBoost) on 370 matches from the 2023/2024 EPL season, closely matching the bookmakers’ accuracy of 58.9%. A significant shortcoming was the models’ inability to predict draws, likely due to class imbalance and the use of accuracy as the evaluation metric for feature selection and hyperparameter tuning. Theoretical profitability was assessed by betting a constant amount based on predictions, but it was not statistically significant at the 5% level. Future research could incorporate player-level features, dive deeper into the problem of draw predictions and explore more sophisticated betting strategies to achieve statistically significant profits.
Keywords: machine learning; football; match prediction; betting; sports
Thesis title: Využití metod strojového učení pro predikci výsledků fotbalových zápasů
Author: Fedorík, Martin
Thesis type: Bakalářská práce
Supervisor: Sokol, Ondřej
Opponents: Kliegr, Tomáš
Thesis language: English
Abstract:
Tato bakalářská práce zkoumá využití strojového učení k predikci výsledků fotbalových zápasů s cílem dosáhnout vysoké prediktivní správnosti a porovnat ji se správností sázkových kanceláří. Sekundárním cílem bylo zhodnotit potenciální ziskovost modelů. Byla použita nová komplexní datová sada s podrobnými statistikami, včetně očekávaných gólů (xG), k zvýšení prediktivní správnosti. Datová sada zahrnovala sedm sezón anglické Premier League (EPL) s tím, že sezóna 2023/2024 sloužila jako testovací sada. Bylo provedeno rozsáhlé generování příznaků, které vedlo k 134 příznakům, z nichž bylo 52 vybráno pomocí rekurzivní eliminace příznaků s XGBoost. Hyperparametry pro modely XGBoost a Random Forest byly optimalizovány pomocí časově založené křížové validace a náhodného vyhledávání. Modely dosáhly správnosti 58.4% (Random Forest) a 58.6% (XGBoost) na 370 zápasech sezóny EPL 2023/2024, což se blížilo správnosti sázkových kanceláří 58.9%. Významnou slabinou byla neschopnost modelů předpovídat remízy, pravděpodobně kvůli nevyváženosti tříd a použití správnosti jako hodnotící metriky pro výběr příznaků a ladění hyperparametrů. Teoretická ziskovost byla posuzována sázením konstantní částky na základě predikcí, ale nebyla statisticky významná na 5% hladině významnosti. Budoucí výzkum by mohl zahrnout příznaky na úrovni hráčů, hlouběji se podívat na problematiku predikce remíz a prozkoumat sofistikovanější sázkové strategie k dosažení statisticky významných zisků.
Keywords: fotbal; predikce zápasů; sázení; sport; strojové učení

Information about study

Study programme: Data Analytics
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Econometrics

Information on submission and defense

Date of assignment: 21. 1. 2024
Date of submission: 27. 6. 2024
Date of defense: 2024

Files for download

The files will be available after the defense of the thesis.

    Last update: