Comparative Analysis of Multivariate Statistical Methods for Predicting Football Match Outcomes using Real Data

Thesis title: Comparative Analysis of Multivariate Statistical Methods for Predicting Football Match Outcomes using Real Data
Author: Bonsel, Job Paul Maria
Thesis type: Diploma thesis
Supervisor: Čabla, Adam
Opponents: Helman, Karel
Thesis language: English
Abstract:
This thesis evaluates the predictive accuracy of six multivariate statistical models for forecasting football match outcomes within the English Premier League, comparing them against betting odds. The models examined include the Bradley-Terry model with an Additive Feature Differences (AFD) extension, Multinomial Logistic Regression (MLR), Bayesian Networks (BN), Decision Trees, Poisson regression, and Weibull count models. Using data from the 2006/2007 to 2018/2019 seasons sourced from www.football-data.co.uk and www.sofifa.com, the study incorporates both traditional performance metrics and FIFA video game ratings to assess team strengths. Performance evaluation is conducted through Ranked Probability Score (RPS) and Classification Accuracy, utilizing k-fold cross-validation. Results indicate that the Bradley-Terry AFD and MLR models perform most effectively, closely rivaling the sophisticated betting models which include real-time data adjustments. The study also highlights the tendency of models to overestimate home wins and the potential of FIFA ratings as predictive tools. This research provides insights into the capabilities of statistical models in sports analytics and suggests directions for future enhancements, particularly in integrating novel data sources to improve the prediction of football match outcomes.
Keywords: football match outcomes; comparative analysis; videogame data; multivariate statistical methods; Predictive modeling
Thesis title: COMPARATIVE ANALYSIS OF MULTIVARIATE STATISTICAL METHODS FOR PREDICTING FOOTBALL MATCH OUTCOMES USING REAL DATA
Author: Bonsel, Job Paul Maria
Thesis type: Diplomová práce
Supervisor: Čabla, Adam
Opponents: Helman, Karel
Thesis language: English
Abstract:
Tato práce hodnotí prediktivní přesnost šesti vícerozměrných statistických modelů pro předpovídání výsledků fotbalových zápasů v rámci anglické Premier League a porovnává je se sázkovými kurzy. Zkoumané modely zahrnují Bradley-Terryho model s rozšířením aditivních rysů (AFD), multinomiální logistickou regresi (MLR), bayesovské sítě (BN), rozhodovací stromy, Poissonovu regresi a Weibullův počet. S využitím dat ze sezón 2006/2007 až 2018/2019 pocházejících z www.football-data.co.uk a www.sofifa.com studie zahrnuje jak tradiční výkonnostní metriky, tak hodnocení videoher FIFA k posouzení síly týmu. Hodnocení výkonu se provádí pomocí skóre pravděpodobnosti (RPS) a přesnosti klasifikace s využitím k-násobné křížové validace. Výsledky naznačují, že modely Bradley-Terry AFD a MLR fungují nejefektivněji a těsně konkurují sofistikovaným modelům sázení, které zahrnují úpravy dat v reálném čase. Studie také zdůrazňuje tendenci modelů přeceňovat domácí výhry a potenciál hodnocení FIFA jako prediktivních nástrojů. Tento výzkum poskytuje vhled do schopností statistických modelů ve sportovní analýze a navrhuje směry pro budoucí vylepšení, zejména v integraci nových zdrojů dat pro zlepšení predikce výsledků fotbalových zápasů. This thesis evaluates the predictive accuracy of six multivariate statistical models for forecasting football match outcomes within the English Premier League, comparing them against betting odds. The models examined include the Bradley-Terry model with an Additive Feature Differences (AFD) extension, Multinomial Logistic Regression (MLR), Bayesian Networks (BN), Decision Trees, Poisson regression, and Weibull count models. Using data from the 2006/2007 to 2018/2019 seasons sourced from www.football-data.co.uk and www.sofifa.com, the study incorporates both traditional performance metrics and FIFA video game ratings to assess team strengths. Performance evaluation is conducted through Ranked Probability Score (RPS) and Classification Accuracy, utilizing k-fold cross-validation. Results indicate that the Bradley-Terry AFD and MLR models perform most effectively, closely rivaling the sophisticated betting models which include real-time data adjustments. The study also highlights the tendency of models to overestimate home wins and the potential of FIFA ratings as predictive tools. This research provides insights into the capabilities of statistical models in sports analytics and suggests directions for future enhancements, particularly in integrating novel data sources to improve the prediction of football match outcomes.
Keywords: Prediktivní modelování; výsledky fotbalových zápasů; vícerozměrné statistické metody; Predictive modeling; comparative analysis; videogame data; multivariate statistical methods; srovnávací analýza; data videoher; football match outcomes

Information about study

Study programme: Economic Data Analysis/Data Analysis and Modeling
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 30. 10. 2023
Date of submission: 28. 4. 2024
Date of defense: 5. 6. 2024
Identifier in the InSIS system: https://insis.vse.cz/zp/86317/podrobnosti

Files for download

    Last update: