Predikce basketbalových zápasů: Může čistě datový přístup překonat obchodní strategie sázkových kanceláří?
Autor(ka) práce:
Kiml, Kryštof
Typ práce:
Bakalářská práce
Vedoucí práce:
Zimmermann, Pavel
Oponenti práce:
Fojtík, Jan
Jazyk práce:
Česky
Abstrakt:
Tato bakalářská práce se věnuje tvorbě predikčního modelu pro basketbalovou NBA s využitím vybraných algoritmů strojového učení. Hlavní otázkou, na kterou se snažíme odpovědět, je, zda lze z veřejně dostupných dat sestavit model, který by dokázal dlouhodobě porážet sázkové kurzy – tedy generovat zisk při sázení na týmy s vyšší predikovanou pravděpodobností výhry. Pro tento účel jsme sestavili dataset zahrnující více než 10 000 zápasů ze sezón 2015 až 2024. Dataset také obsahuje zhruba 130 proměnných, převážně ve formě kumulativně napočítaných týmových statistik, které reflektují výkon obou týmů před každým utkáním. V rámci práce byly implementovány tři různé modely strojového učení: Random Forest, Extreme Gradient Boosting (XGBoost) a Support Vector Machines (SVM). Výsledky modelů byly porovnávána jak prostřednictvím klasifikačních metrik (Accuracy, AUC-ROC, Gini), tak i na základě výsledků simulované sázkové strategie, ve které byla na každý zápas podána sázka na tým s vyšší predikovanou pravděpodobností výhry. Práce také zahrnuje analýzu výdělečnosti jednotlivých tipů a chování sázkových trhů. Výsledky ukazují, že prediktivní modely mají potenciál konkurovat predikcím obsaženým v kurzech sázkových kanceláří, zejména v určitých obdobích nebo typech zápasů. Celkově práce přispívá k lepšímu pochopení možností prediktivního modelování ve sportovní analytice a nabízí praktický pohled na propojení datové vědy se světem sportovního sázení.
Klíčová slova:
strojové učení; NBA; sportovní predikce; sázkové kurzy; Random Forest; klasifikace; XGBoost; SVM
Název práce:
Prediction of Basketball Games: Can a Purely Data-Driven Approach Outperform Bookmakers' Business Strategies?
Autor(ka) práce:
Kiml, Kryštof
Typ práce:
Bachelor thesis
Vedoucí práce:
Zimmermann, Pavel
Oponenti práce:
Fojtík, Jan
Jazyk práce:
Česky
Abstrakt:
In this bachelor thesis we build a couple of predictive models for NBA basketball games using selected machine learning algorithms. The main question of this work we tried to answer is whether it is possible to create a model based on publicly available data that can consistently outperform bookmaker odds, meaning generating profit by betting on the team with the higher predicted probability of winning. To achieve this a comprehensive dataset was gathered covering over 10,000 games from the 2015 to 2024 NBA seasons. The dataset includes approximately 130 variables, primarily in the form of cumulative team statistics reflecting the performance of both teams prior to each match. The thesis implements three different machine learning models: Random Forest, Extreme Gradient Boosting (XGBoost), and Support Vector Machines (SVM). The models were evaluated not only using classical classification metrics such as Accuracy, AUC-ROC, and Gini coefficient, but also through a simulated betting strategy, in which a bet was placed on the team with the higher predicted win probability for each game. The work also includes an analysis of the profitability of individual predictions and the behavior of betting markets. The results suggest that data driven models have the potential to compete with the probabilities implied by bookmaker odds, particularly during specific time periods or game types. Overall, the thesis contributes to a deeper understanding of predictive modeling in sports analytics and provides a practical perspective on the intersection of data science and sports betting.