This thesis investigates the prediction of professional Dota 2 match outcomes using machine learning techniques, focusing on pre-game and early-game features limited to the first 10 minutes of gameplay. Alongside the development of predictive models, it introduces a structured data governance framework inspired by modern data engineering practices, enabling scalable data collection, transformation, and modelling. Three classification algorithms are applied: Logistic Regression, Multi-Layer Perceptron (MLP), and XGBoost. Each model is trained on a dataset adjusted to suit its specific characteristics and working principles, incorporating custom transformations such as binning and one-hot encoding. The models undergo initial evaluation and are then refined through feature pruning and hyperparameter tuning. The impact of individual variables is assessed using model coefficients, permutation importance (measured on the training data), and Shapley values. The models achieve competitive accuracy, with all reaching up to 65.7%. Although pruning and tuning yield incremental improvements, none of the individual models surpasses the baseline Logistic Regression, which also reaches 65.7%. A stacked ensemble model that combines the best-performing versions of all three base learners slightly improves performance to 65.8%. Key predictors include early-game differences in experience, kills, and net worth, as well as the presence of a team on the ELO leaderboard. The results confirm that early-game data alone can support meaningful predictions and that combining ensemble techniques with structured preprocessing pipelines enhances both performance and interpretability. Future work may involve integrating real-time match data and team-specific historical information to further improve predictive accuracy.
Klíčová slova:
Machine Learning; Data Governance; XGBoost; MLP; Dota 2; Logistic Regression
Název práce:
Zkoumání faktorů ovlivňujících výsledky zápasů v Dota 2
Autor(ka) práce:
Tcypin, Gleb
Typ práce:
Bakalářská práce
Vedoucí práce:
Rejthar, Jan
Oponenti práce:
Kavřík, Dominik
Jazyk práce:
English
Abstrakt:
Tato práce se zabývá predikcí výsledků profesionálních zápasů ve hře Dota 2 pomocí metod strojového učení, přičemž se zaměřuje na předzápasové a rané herní ukazatele omezené na prvních 10 minut hry. Kromě samotné tvorby prediktivních modelů zavádí práce také strukturovaný rámec pro správu dat inspirovaný moderními přístupy datového inženýrství, který umožňuje škálovatelné sbírání, transformaci a modelování dat. Jsou využity tři klasifikační algoritmy: logistická regrese, vícevrstvá neuronová síť (MLP) a XGBoost. Každý model je natrénován na datové sadě přizpůsobené jeho konkrétním vlastnostem a způsobu fungování, přičemž jsou použity úpravy jako je rozdělení hodnot do intervalů (binning) a jednorázové zakódování kategorií (one-hot encoding). Modely jsou nejprve vyhodnoceny v základní podobě a následně vylepšeny prostřednictvím redukce méně významných příznaků a ladění hyperparametrů. Vliv jednotlivých proměnných je posuzován pomocí koeficientů modelu, permutační důležitosti (vypočtené na trénovacích datech) a Shapleyho hodnot. Modely dosahují srovnatelné přesnosti, přičemž všechny dosahují až 65,7 %. I když ladění a redukce příznaků přinesly dílčí zlepšení, žádný z jednotlivých modelů nepřekonal výchozí logistickou regresi, která rovněž dosáhla 65,7 %. Kombinovaný model (stacked ensemble), který propojuje nejlepší verze všech tří základních modelů, zlepšil výsledek mírně na 65,8 %. Mezi nejvlivnější příznaky patří rozdíl v získaných zkušenostech, počtu zabití, čistém jmění týmů během prvních minut hry a také přítomnost týmu v žebříčku ELO. Výsledky potvrzují, že smysluplné predikce lze dosáhnout i pouze na základě raných dat ze hry a že kombinace ensemble metod s dobře strukturovaným předzpracováním zvyšuje jak výkonnost, tak interpretovatelnost modelů. Do budoucna by bylo možné zlepšit predikční přesnost začleněním dat v reálném čase a historických informací o konkrétních týmech.
Klíčová slova:
Dota 2; strojové účení; XGBoost; logistická regrese; řízení dat; MLP