Predikční analýza sportovních dat

Název práce: Predikční analýza sportovních dat
Autor(ka) práce: Hruška, Jakub
Typ práce: Diplomová práce
Vedoucí práce: Zouhar, Jan
Oponenti práce: Holý, Vladimír
Jazyk práce: Česky
Abstrakt:
V odborné literatuře se v oblasti analýzy sportovních dat obecně vyskytuje problém s nedostatečnými datovými sety, jsou špatně dostupné, krátké, mnohdy i zastaralé a pokud už někde aktuální statistiky objeví, nejsou ve formě pro analýzu. První část této diplomové práce tedy řeší zmíněný problém sestavením robota pomocí Pythonu na stahování statistik ze stránky flashscore.com, tyto statistiky dále transformuje na dataset vhodný k analýze. Dále se práce zabývá predikcí vítězů utkaní na základě právě stažených statistik, konkrétně hokejové NHL a ELH, a fotbalové FNL, Premier League, Serie A, La Liga a Ligue 1. Proměnné vstupujicí do modelu pro predikci vítězů se skládají z historických statistik před zápasem a informacemi, které sázkař vidí před začátkem utkání. Pomocí různých variací modelu XGBoostu a Logistické regrese a jejich následném vyhodnocení a popisuje rozdíly mezi přesností modelů napříč ligami/sporty. Následně i díky historickým informacím o kurzech na dané utkání se diplomová práce snaží odpovědět na otázku, zda je sázení podle predikcí stanovených modelů dlouhodobě výdělečná činnost. Nebo zda-li existuje určitá strategie při sázení, kdy by sázení bylo výdělečné. Poté se tato práce zabývá hodnocením těchto strategií na základě určených kritérií, výstupem této části práce tedy je 10 nejlépe hodnocených strategií, kterých by se měl sázkař při sázení držet.
Klíčová slova: XGBoost; Logistická regrese; Web Scraping; Sázkové kurzy; Predikce; Sport
Název práce: Predictive analysis of sport data
Autor(ka) práce: Hruška, Jakub
Typ práce: Diploma thesis
Vedoucí práce: Zouhar, Jan
Oponenti práce: Holý, Vladimír
Jazyk práce: Česky
Abstrakt:
In the literature, the problem of insufficient datasets in the field of sports data analysis is generally encountered; they are poorly available, short, often outdated, and if actual statistics do appear somewhere, they are not in a form for analysis. Therefore, the first part of this thesis solves the above mentioned problem by building a robot using Python to download statistics from flashscore.com, further transforming these statistics into a dataset suitable for analysis. Furthermore, the work deals with the prediction of match winners based on the statistics just downloaded, namely hockey NHL and ELH, and football FNL, Premier League, Serie A, La Liga and Ligue 1. The variables entering the model for predicting winners consist of historical statistics before the match and information that the bettor sees before the match starts. Using different variations of the XGBoost and Logistic Regression models and then evaluating them and describing the differences between the accuracy of the models across leagues/sports. Subsequently, and thanks to historical information on the odds for a given match, the thesis tries to answer the question whether betting according to the predictions of the established models is a profitable activity in the long run. Or whether there is a particular strategy in betting where betting would be profitable. Then this thesis deals with the evaluation of these strategies based on the identified criteria, thus the output of this part of the thesis is the top 10 strategies that a bettor should follow when betting.
Klíčová slova: XGBoost; Logistic Regression; Web Scraping; Bets; Prediction; Sport

Informace o studiu

Studijní program / obor: Ekonometrie a operační výzkum
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra ekonometrie

Informace o odevzdání a obhajobě

Datum zadání práce: 2. 11. 2021
Datum podání práce: 5. 12. 2022
Datum obhajoby: 26. 1. 2023
Identifikátor v systému InSIS: https://insis.vse.cz/zp/78622/podrobnosti

Soubory ke stažení

    Poslední aktualizace: