Comparative Analysis of Multivariate Statistical Methods for Predicting Football Match Outcomes using Real Data
Thesis title: | Comparative Analysis of Multivariate Statistical Methods for Predicting Football Match Outcomes using Real Data |
---|---|
Author: | Bonsel, Job Paul Maria |
Thesis type: | Diploma thesis |
Supervisor: | Čabla, Adam |
Opponents: | Helman, Karel |
Thesis language: | English |
Abstract: | This thesis evaluates the predictive accuracy of six multivariate statistical models for forecasting football match outcomes within the English Premier League, comparing them against betting odds. The models examined include the Bradley-Terry model with an Additive Feature Differences (AFD) extension, Multinomial Logistic Regression (MLR), Bayesian Networks (BN), Decision Trees, Poisson regression, and Weibull count models. Using data from the 2006/2007 to 2018/2019 seasons sourced from www.football-data.co.uk and www.sofifa.com, the study incorporates both traditional performance metrics and FIFA video game ratings to assess team strengths. Performance evaluation is conducted through Ranked Probability Score (RPS) and Classification Accuracy, utilizing k-fold cross-validation. Results indicate that the Bradley-Terry AFD and MLR models perform most effectively, closely rivaling the sophisticated betting models which include real-time data adjustments. The study also highlights the tendency of models to overestimate home wins and the potential of FIFA ratings as predictive tools. This research provides insights into the capabilities of statistical models in sports analytics and suggests directions for future enhancements, particularly in integrating novel data sources to improve the prediction of football match outcomes. |
Keywords: | football match outcomes; comparative analysis; videogame data; multivariate statistical methods; Predictive modeling |
Thesis title: | COMPARATIVE ANALYSIS OF MULTIVARIATE STATISTICAL METHODS FOR PREDICTING FOOTBALL MATCH OUTCOMES USING REAL DATA |
---|---|
Author: | Bonsel, Job Paul Maria |
Thesis type: | Diplomová práce |
Supervisor: | Čabla, Adam |
Opponents: | Helman, Karel |
Thesis language: | English |
Abstract: | Tato práce hodnotí prediktivní přesnost šesti vícerozměrných statistických modelů pro předpovídání výsledků fotbalových zápasů v rámci anglické Premier League a porovnává je se sázkovými kurzy. Zkoumané modely zahrnují Bradley-Terryho model s rozšířením aditivních rysů (AFD), multinomiální logistickou regresi (MLR), bayesovské sítě (BN), rozhodovací stromy, Poissonovu regresi a Weibullův počet. S využitím dat ze sezón 2006/2007 až 2018/2019 pocházejících z www.football-data.co.uk a www.sofifa.com studie zahrnuje jak tradiční výkonnostní metriky, tak hodnocení videoher FIFA k posouzení síly týmu. Hodnocení výkonu se provádí pomocí skóre pravděpodobnosti (RPS) a přesnosti klasifikace s využitím k-násobné křížové validace. Výsledky naznačují, že modely Bradley-Terry AFD a MLR fungují nejefektivněji a těsně konkurují sofistikovaným modelům sázení, které zahrnují úpravy dat v reálném čase. Studie také zdůrazňuje tendenci modelů přeceňovat domácí výhry a potenciál hodnocení FIFA jako prediktivních nástrojů. Tento výzkum poskytuje vhled do schopností statistických modelů ve sportovní analýze a navrhuje směry pro budoucí vylepšení, zejména v integraci nových zdrojů dat pro zlepšení predikce výsledků fotbalových zápasů. This thesis evaluates the predictive accuracy of six multivariate statistical models for forecasting football match outcomes within the English Premier League, comparing them against betting odds. The models examined include the Bradley-Terry model with an Additive Feature Differences (AFD) extension, Multinomial Logistic Regression (MLR), Bayesian Networks (BN), Decision Trees, Poisson regression, and Weibull count models. Using data from the 2006/2007 to 2018/2019 seasons sourced from www.football-data.co.uk and www.sofifa.com, the study incorporates both traditional performance metrics and FIFA video game ratings to assess team strengths. Performance evaluation is conducted through Ranked Probability Score (RPS) and Classification Accuracy, utilizing k-fold cross-validation. Results indicate that the Bradley-Terry AFD and MLR models perform most effectively, closely rivaling the sophisticated betting models which include real-time data adjustments. The study also highlights the tendency of models to overestimate home wins and the potential of FIFA ratings as predictive tools. This research provides insights into the capabilities of statistical models in sports analytics and suggests directions for future enhancements, particularly in integrating novel data sources to improve the prediction of football match outcomes. |
Keywords: | Prediktivní modelování; výsledky fotbalových zápasů; vícerozměrné statistické metody; Predictive modeling; comparative analysis; videogame data; multivariate statistical methods; srovnávací analýza; data videoher; football match outcomes |
Information about study
Study programme: | Economic Data Analysis/Data Analysis and Modeling |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Statistics and Probability |
Information on submission and defense
Date of assignment: | 30. 10. 2023 |
---|---|
Date of submission: | 28. 4. 2024 |
Date of defense: | 5. 6. 2024 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/86317/podrobnosti |