COMPARATIVE ANALYSIS OF MULTIVARIATE STATISTICAL METHODS FOR PREDICTING FOOTBALL MATCH OUTCOMES USING REAL DATA

Název práce: Comparative Analysis of Multivariate Statistical Methods for Predicting Football Match Outcomes using Real Data
Autor(ka) práce: Bonsel, Job Paul Maria
Typ práce: Diploma thesis
Vedoucí práce: Čabla, Adam
Oponenti práce: Helman, Karel
Jazyk práce: English
Abstrakt:
This thesis evaluates the predictive accuracy of six multivariate statistical models for forecasting football match outcomes within the English Premier League, comparing them against betting odds. The models examined include the Bradley-Terry model with an Additive Feature Differences (AFD) extension, Multinomial Logistic Regression (MLR), Bayesian Networks (BN), Decision Trees, Poisson regression, and Weibull count models. Using data from the 2006/2007 to 2018/2019 seasons sourced from www.football-data.co.uk and www.sofifa.com, the study incorporates both traditional performance metrics and FIFA video game ratings to assess team strengths. Performance evaluation is conducted through Ranked Probability Score (RPS) and Classification Accuracy, utilizing k-fold cross-validation. Results indicate that the Bradley-Terry AFD and MLR models perform most effectively, closely rivaling the sophisticated betting models which include real-time data adjustments. The study also highlights the tendency of models to overestimate home wins and the potential of FIFA ratings as predictive tools. This research provides insights into the capabilities of statistical models in sports analytics and suggests directions for future enhancements, particularly in integrating novel data sources to improve the prediction of football match outcomes.
Klíčová slova: football match outcomes; comparative analysis; videogame data; multivariate statistical methods; Predictive modeling
Název práce: COMPARATIVE ANALYSIS OF MULTIVARIATE STATISTICAL METHODS FOR PREDICTING FOOTBALL MATCH OUTCOMES USING REAL DATA
Autor(ka) práce: Bonsel, Job Paul Maria
Typ práce: Diplomová práce
Vedoucí práce: Čabla, Adam
Oponenti práce: Helman, Karel
Jazyk práce: English
Abstrakt:
Tato práce hodnotí prediktivní přesnost šesti vícerozměrných statistických modelů pro předpovídání výsledků fotbalových zápasů v rámci anglické Premier League a porovnává je se sázkovými kurzy. Zkoumané modely zahrnují Bradley-Terryho model s rozšířením aditivních rysů (AFD), multinomiální logistickou regresi (MLR), bayesovské sítě (BN), rozhodovací stromy, Poissonovu regresi a Weibullův počet. S využitím dat ze sezón 2006/2007 až 2018/2019 pocházejících z www.football-data.co.uk a www.sofifa.com studie zahrnuje jak tradiční výkonnostní metriky, tak hodnocení videoher FIFA k posouzení síly týmu. Hodnocení výkonu se provádí pomocí skóre pravděpodobnosti (RPS) a přesnosti klasifikace s využitím k-násobné křížové validace. Výsledky naznačují, že modely Bradley-Terry AFD a MLR fungují nejefektivněji a těsně konkurují sofistikovaným modelům sázení, které zahrnují úpravy dat v reálném čase. Studie také zdůrazňuje tendenci modelů přeceňovat domácí výhry a potenciál hodnocení FIFA jako prediktivních nástrojů. Tento výzkum poskytuje vhled do schopností statistických modelů ve sportovní analýze a navrhuje směry pro budoucí vylepšení, zejména v integraci nových zdrojů dat pro zlepšení predikce výsledků fotbalových zápasů. This thesis evaluates the predictive accuracy of six multivariate statistical models for forecasting football match outcomes within the English Premier League, comparing them against betting odds. The models examined include the Bradley-Terry model with an Additive Feature Differences (AFD) extension, Multinomial Logistic Regression (MLR), Bayesian Networks (BN), Decision Trees, Poisson regression, and Weibull count models. Using data from the 2006/2007 to 2018/2019 seasons sourced from www.football-data.co.uk and www.sofifa.com, the study incorporates both traditional performance metrics and FIFA video game ratings to assess team strengths. Performance evaluation is conducted through Ranked Probability Score (RPS) and Classification Accuracy, utilizing k-fold cross-validation. Results indicate that the Bradley-Terry AFD and MLR models perform most effectively, closely rivaling the sophisticated betting models which include real-time data adjustments. The study also highlights the tendency of models to overestimate home wins and the potential of FIFA ratings as predictive tools. This research provides insights into the capabilities of statistical models in sports analytics and suggests directions for future enhancements, particularly in integrating novel data sources to improve the prediction of football match outcomes.
Klíčová slova: Prediktivní modelování; výsledky fotbalových zápasů; vícerozměrné statistické metody; Predictive modeling; comparative analysis; videogame data; multivariate statistical methods; srovnávací analýza; data videoher; football match outcomes

Informace o studiu

Studijní program / obor: Economic Data Analysis/Data Analysis and Modeling
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 30. 10. 2023
Datum podání práce: 28. 4. 2024
Datum obhajoby: 2024

Soubory ke stažení

Soubory budou k dispozici až po obhajobě práce.

    Poslední aktualizace: