Prediction of Premier League Football Matches

Thesis title: Predikce fotbalových zápasů Premier League
Author: Nguyen, Kevin
Thesis type: Bakalářská práce
Supervisor: Chudán, David
Opponents: Máša, Petr
Thesis language: Česky
Abstract:
Cílem bakalářská práce spočívá ve zjištění, zda je možné predikovat konečné výsledky fotbalových zápasu v anglické lize Premier League. Toto ověření se konkrétně provádělo tvorbou modelů zvolených metod a následnou analýzou výsledků získaných z vybraných výkonnostních metrik. Data byla získana z bezplatného webového portálu pro fotbalové sázení Football-Data.co.uk a pro predikci bylo využito 4180 odehraných fotbalových zápasů z posledních 10 zakončených sezón (2014-2025). V této práci se použily metody Logistické regrese, Support Vector Machines (SVM), eXtreme Gradient Boosting (XGBoost) a Naivní Bayes. Samotné aplikaci modelů předcházela kontrola kvality dat a explorační datová analýza (EDA), jejímž úkolem bylo získat základní charakteristiky o datasetu. Na základě výkonnostních metrik dosáhly vytvořené modely podobných výsledků. Společným znakem všech modelů byla nízká úspěšnost při predikci správných remíz, což indikuje, že problém nespočíval ve zvolených metodách, ale v nedostatečné schopnosti charakteristik predikovat remízu. Práce proto doporučuje pro budoucí výzkum implementovat pokročilejší metriky, které by přispěly ke zlepšení výkonnosti modelů.
Keywords: strojové učení; ML; Logistická regrese; Support Vector Machines; SVM; eXtreme Gradient Boosting; XGBoost; Premier League; sport; fotbal; predikce
Thesis title: Prediction of Premier League Football Matches
Author: Nguyen, Kevin
Thesis type: Bachelor thesis
Supervisor: Chudán, David
Opponents: Máša, Petr
Thesis language: Česky
Abstract:
The aim of the bachelor's thesis is to determine whether it is possible to predict the outcomes of football matches in the English Premier League. This verification was specifically carried out by creating models using selected methods and subsequently analyzing the results obtained from chosen performance metrics. The data was acquired from the free web portal for football betting, Football-Data.co.uk, and 4180 played football matches from the last 10 completed seasons (2014-2025) were used for the prediction. The methods used in this work were Logistic Regression, Support Vector Machines (SVM), eXtreme Gradient Boosting (XGBoost), and Naive Bayes. The application of the models was preceded by data quality control and Exploratory Data Analysis (EDA), whose task was to obtain basic characteristics of the dataset. Based on the performance metrics, the developed models achieved similar results. A common characteristic of all models was their low success rate in predicting correct draws, which indicates that the problem was not with the chosen methods but with the insufficient ability of the characteristics to predict a draw. The thesis therefore recommends implementing more advanced metrics for future research, which would contribute to improving the performance of the models.
Keywords: machine learning; ML; Logistic Regression; Support Vector Machines; SVM; sport; football; prediction; eXtreme Gradient Boosting; XGBoost; Premier League

Information about study

Study programme: Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 20. 11. 2024
Date of submission: 7. 12. 2025
Date of defense: 27. 1. 2026
Identifier in the InSIS system: https://insis.vse.cz/zp/90433/podrobnosti

Files for download

    Last update: