Predikční analýza sportovních dat
Název práce: | Predikční analýza sportovních dat |
---|---|
Autor(ka) práce: | Hruška, Jakub |
Typ práce: | Diplomová práce |
Vedoucí práce: | Zouhar, Jan |
Oponenti práce: | Holý, Vladimír |
Jazyk práce: | Česky |
Abstrakt: | V odborné literatuře se v oblasti analýzy sportovních dat obecně vyskytuje problém s nedostatečnými datovými sety, jsou špatně dostupné, krátké, mnohdy i zastaralé a pokud už někde aktuální statistiky objeví, nejsou ve formě pro analýzu. První část této diplomové práce tedy řeší zmíněný problém sestavením robota pomocí Pythonu na stahování statistik ze stránky flashscore.com, tyto statistiky dále transformuje na dataset vhodný k analýze. Dále se práce zabývá predikcí vítězů utkaní na základě právě stažených statistik, konkrétně hokejové NHL a ELH, a fotbalové FNL, Premier League, Serie A, La Liga a Ligue 1. Proměnné vstupujicí do modelu pro predikci vítězů se skládají z historických statistik před zápasem a informacemi, které sázkař vidí před začátkem utkání. Pomocí různých variací modelu XGBoostu a Logistické regrese a jejich následném vyhodnocení a popisuje rozdíly mezi přesností modelů napříč ligami/sporty. Následně i díky historickým informacím o kurzech na dané utkání se diplomová práce snaží odpovědět na otázku, zda je sázení podle predikcí stanovených modelů dlouhodobě výdělečná činnost. Nebo zda-li existuje určitá strategie při sázení, kdy by sázení bylo výdělečné. Poté se tato práce zabývá hodnocením těchto strategií na základě určených kritérií, výstupem této části práce tedy je 10 nejlépe hodnocených strategií, kterých by se měl sázkař při sázení držet. |
Klíčová slova: | XGBoost; Logistická regrese; Web Scraping; Sázkové kurzy; Predikce; Sport |
Název práce: | Predictive analysis of sport data |
---|---|
Autor(ka) práce: | Hruška, Jakub |
Typ práce: | Diploma thesis |
Vedoucí práce: | Zouhar, Jan |
Oponenti práce: | Holý, Vladimír |
Jazyk práce: | Česky |
Abstrakt: | In the literature, the problem of insufficient datasets in the field of sports data analysis is generally encountered; they are poorly available, short, often outdated, and if actual statistics do appear somewhere, they are not in a form for analysis. Therefore, the first part of this thesis solves the above mentioned problem by building a robot using Python to download statistics from flashscore.com, further transforming these statistics into a dataset suitable for analysis. Furthermore, the work deals with the prediction of match winners based on the statistics just downloaded, namely hockey NHL and ELH, and football FNL, Premier League, Serie A, La Liga and Ligue 1. The variables entering the model for predicting winners consist of historical statistics before the match and information that the bettor sees before the match starts. Using different variations of the XGBoost and Logistic Regression models and then evaluating them and describing the differences between the accuracy of the models across leagues/sports. Subsequently, and thanks to historical information on the odds for a given match, the thesis tries to answer the question whether betting according to the predictions of the established models is a profitable activity in the long run. Or whether there is a particular strategy in betting where betting would be profitable. Then this thesis deals with the evaluation of these strategies based on the identified criteria, thus the output of this part of the thesis is the top 10 strategies that a bettor should follow when betting. |
Klíčová slova: | XGBoost; Logistic Regression; Web Scraping; Bets; Prediction; Sport |
Informace o studiu
Studijní program / obor: | Ekonometrie a operační výzkum |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra ekonometrie |
Informace o odevzdání a obhajobě
Datum zadání práce: | 2. 11. 2021 |
---|---|
Datum podání práce: | 5. 12. 2022 |
Datum obhajoby: | 26. 1. 2023 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/78622/podrobnosti |