Detekce odlehlých pozorování – aplikace metod na data IT trhu
Název práce: | Detekce odlehlých pozorování – aplikace metod na data IT trhu |
---|---|
Autor(ka) práce: | Arzumanov, Robert |
Typ práce: | Diplomová práce |
Vedoucí práce: | Černý, Michal |
Oponenti práce: | Pelikán, Jan |
Jazyk práce: | Česky |
Abstrakt: | Detekce odlehlých pozorování se již dávno stala často používaným krokem ke zkvalitnění datových souborů před jejich analýzou a následně i alternativním způsobem zkoumání dat. Praktická aplikace metod detekce outlierů se postupem času stále rozšiřuje, stejně jako i řešené množství úloh. Tato práce si klade za cíl prozkoumání, výběr vhodných metod a aplikaci za účelem řešení konkrétního praktického problému. Jde o vyhledání chybných hodnot a vícerozměrnou detekci odlehlých bodů v značně rozsáhlých multidimenzionálních souborech z trhu ICT. V průběhu řešení problému se implementovaly a naprogramovaly několik metod detekce -- jak jednorozměrných, tak i vícerozměrných algoritmů. Dále se také demonstruje praktické využití detekce outlierů, analyzují se vhodnost, výhody a nevýhody metod s návrhem případných zlepšení nebo alternativních postupů. Výsledkem se podařilo najít chybné hodnoty v datech a naplnit jiné cíle zkoumání stanovené společností IDC CEMA, s.r.o. |
Klíčová slova: | IDC; RStudio; ICT; distance-based; vícerozměrná identifikace; detekce odlehlých pozorování |
Název práce: | Outlier Detection – an application to IT market data |
---|---|
Autor(ka) práce: | Arzumanov, Robert |
Typ práce: | Diploma thesis |
Vedoucí práce: | Černý, Michal |
Oponenti práce: | Pelikán, Jan |
Jazyk práce: | Česky |
Abstrakt: | Outlier identification has been a frequently-used data cleaning procedure for several decades, later on becoming an alternative approach to viewing and analysing data. Practical application of outlier identification methods and tasks solved widely vary and continuously develop over time. This thesis sets a goal of overview and selection of the most appropriate methods for subsequent application in order to solve a concrete practical problem. The aim is to clean the obtained datasets from erroneous observations and perform various multivariate outlier detection procedures. Several detection algorithms were programmed and applied to the given dataset. Practical results are demonstrated, discussion on suitability, advantages and disadvantages is held, including improvement or alternatives suggestions. As a result, errors were filtered out and several other problems set by IDC CEMA, s.r.o. were solved. |
Klíčová slova: | IDC; RStudio; outlier identification; ICT; distance-based outliers; multivariate outlier detection |
Informace o studiu
Studijní program / obor: | Kvantitativní metody v ekonomice/Ekonometrie a operační výzkum |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra ekonometrie |
Informace o odevzdání a obhajobě
Datum zadání práce: | 13. 1. 2014 |
---|---|
Datum podání práce: | 1. 10. 2014 |
Datum obhajoby: | 9. 9. 2014 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/46091/podrobnosti |