Cílem této práce je porovnání predikčních modelů pro odhad fotbalových výsledků a statistik. Analýza je provedena na datech z anglické Premier League ročníku 2024/2025. Mezi sebou jsou porovnávány tři přístupy: referenční model agregovaných hodnot, komplexní soubor regresních funkcí a algoritmus strojového učení XGBoost. Specifikem práce je záměrné využití omezené trénovací sady dat. Pro zajištění robustnosti predikcí je použita metoda simulací Monte Carlo. Z vygenerovaných scénářů je vybrán ten nejreprezentativnější pomocí průměrů získaných bodů týmů. Predikční kvalita jednotlivých modelů je hodnocena pomocí RMSE a Pearsonova korelačního koeficientu, které se propisují do finálního agregovaného Skóre. Výsledky provedené analýzy prokazují, že soubor regresních funkcí i algoritmus XGBoost dosahují srovnatelně vysoké úspěšnosti a představují tak rovnocenně efektivní predikční nástroje v tomto scénáři. Analýzy v této práci byly provedeny pomocí programovacího jazyka R v programu RStudio.
Klíčová slova:
Fotbal; Regrese; Strojové učení; Monte Carlo simulace; Predikční modely
Název práce:
Comparison of predictive models of football results
Autor(ka) práce:
Vašica, Jakub
Typ práce:
Diploma thesis
Vedoucí práce:
Malá, Ivana
Oponenti práce:
Čabla, Adam
Jazyk práce:
Česky
Abstrakt:
The aim of this thesis is to compare predictive models for estimating football match results and statistics. The analysis is conducted on data from the English Premier League 2024/2025. Three approaches are compared: a reference model of aggregated value, a complex set of regression functions, and the XGBoost machine learning algorithm. A specific feature of this thesis is the deliberate use of a limited training dataset. To ensure robustness of the predictions, the Monte Carlo simulation method is used. From the generated scenarios, the most representative one is selected using the means of points acquired by the teams. The predictive performance of the individual models is evaluated using RMSE and the Pearson correlation coefficient, which are subsequently incorporated into a final aggregated Score. The results of the analysis demonstrate that both the set of regression functions and the XGBoost algorithm achieve comparably high success rates, thus representing equally effective predictive tools in this scenario. Analysis in this thesis were performed using programming language R in RStudio.
Klíčová slova:
Predictive models; Machine learning; Regression; Football; Monte Carlo simulation