COMPARATIVE ANALYSIS OF MULTIVARIATE STATISTICAL METHODS FOR PREDICTING FOOTBALL MATCH OUTCOMES USING REAL DATA
Název práce: | Comparative Analysis of Multivariate Statistical Methods for Predicting Football Match Outcomes using Real Data |
---|---|
Autor(ka) práce: | Bonsel, Job Paul Maria |
Typ práce: | Diploma thesis |
Vedoucí práce: | Čabla, Adam |
Oponenti práce: | Helman, Karel |
Jazyk práce: | English |
Abstrakt: | This thesis evaluates the predictive accuracy of six multivariate statistical models for forecasting football match outcomes within the English Premier League, comparing them against betting odds. The models examined include the Bradley-Terry model with an Additive Feature Differences (AFD) extension, Multinomial Logistic Regression (MLR), Bayesian Networks (BN), Decision Trees, Poisson regression, and Weibull count models. Using data from the 2006/2007 to 2018/2019 seasons sourced from www.football-data.co.uk and www.sofifa.com, the study incorporates both traditional performance metrics and FIFA video game ratings to assess team strengths. Performance evaluation is conducted through Ranked Probability Score (RPS) and Classification Accuracy, utilizing k-fold cross-validation. Results indicate that the Bradley-Terry AFD and MLR models perform most effectively, closely rivaling the sophisticated betting models which include real-time data adjustments. The study also highlights the tendency of models to overestimate home wins and the potential of FIFA ratings as predictive tools. This research provides insights into the capabilities of statistical models in sports analytics and suggests directions for future enhancements, particularly in integrating novel data sources to improve the prediction of football match outcomes. |
Klíčová slova: | football match outcomes; comparative analysis; videogame data; multivariate statistical methods; Predictive modeling |
Název práce: | COMPARATIVE ANALYSIS OF MULTIVARIATE STATISTICAL METHODS FOR PREDICTING FOOTBALL MATCH OUTCOMES USING REAL DATA |
---|---|
Autor(ka) práce: | Bonsel, Job Paul Maria |
Typ práce: | Diplomová práce |
Vedoucí práce: | Čabla, Adam |
Oponenti práce: | Helman, Karel |
Jazyk práce: | English |
Abstrakt: | Tato práce hodnotí prediktivní přesnost šesti vícerozměrných statistických modelů pro předpovídání výsledků fotbalových zápasů v rámci anglické Premier League a porovnává je se sázkovými kurzy. Zkoumané modely zahrnují Bradley-Terryho model s rozšířením aditivních rysů (AFD), multinomiální logistickou regresi (MLR), bayesovské sítě (BN), rozhodovací stromy, Poissonovu regresi a Weibullův počet. S využitím dat ze sezón 2006/2007 až 2018/2019 pocházejících z www.football-data.co.uk a www.sofifa.com studie zahrnuje jak tradiční výkonnostní metriky, tak hodnocení videoher FIFA k posouzení síly týmu. Hodnocení výkonu se provádí pomocí skóre pravděpodobnosti (RPS) a přesnosti klasifikace s využitím k-násobné křížové validace. Výsledky naznačují, že modely Bradley-Terry AFD a MLR fungují nejefektivněji a těsně konkurují sofistikovaným modelům sázení, které zahrnují úpravy dat v reálném čase. Studie také zdůrazňuje tendenci modelů přeceňovat domácí výhry a potenciál hodnocení FIFA jako prediktivních nástrojů. Tento výzkum poskytuje vhled do schopností statistických modelů ve sportovní analýze a navrhuje směry pro budoucí vylepšení, zejména v integraci nových zdrojů dat pro zlepšení predikce výsledků fotbalových zápasů. This thesis evaluates the predictive accuracy of six multivariate statistical models for forecasting football match outcomes within the English Premier League, comparing them against betting odds. The models examined include the Bradley-Terry model with an Additive Feature Differences (AFD) extension, Multinomial Logistic Regression (MLR), Bayesian Networks (BN), Decision Trees, Poisson regression, and Weibull count models. Using data from the 2006/2007 to 2018/2019 seasons sourced from www.football-data.co.uk and www.sofifa.com, the study incorporates both traditional performance metrics and FIFA video game ratings to assess team strengths. Performance evaluation is conducted through Ranked Probability Score (RPS) and Classification Accuracy, utilizing k-fold cross-validation. Results indicate that the Bradley-Terry AFD and MLR models perform most effectively, closely rivaling the sophisticated betting models which include real-time data adjustments. The study also highlights the tendency of models to overestimate home wins and the potential of FIFA ratings as predictive tools. This research provides insights into the capabilities of statistical models in sports analytics and suggests directions for future enhancements, particularly in integrating novel data sources to improve the prediction of football match outcomes. |
Klíčová slova: | Prediktivní modelování; výsledky fotbalových zápasů; vícerozměrné statistické metody; Predictive modeling; comparative analysis; videogame data; multivariate statistical methods; srovnávací analýza; data videoher; football match outcomes |
Informace o studiu
Studijní program / obor: | Economic Data Analysis/Data Analysis and Modeling |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra statistiky a pravděpodobnosti |
Informace o odevzdání a obhajobě
Datum zadání práce: | 30. 10. 2023 |
---|---|
Datum podání práce: | 28. 4. 2024 |
Datum obhajoby: | 5. 6. 2024 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/86317/podrobnosti |