Detekce odlehlých pozorování – aplikace metod na data IT trhu

Název práce: Detekce odlehlých pozorování – aplikace metod na data IT trhu
Autor(ka) práce: Arzumanov, Robert
Typ práce: Diplomová práce
Vedoucí práce: Černý, Michal
Oponenti práce: Pelikán, Jan
Jazyk práce: Česky
Abstrakt:
Detekce odlehlých pozorování se již dávno stala často používaným krokem ke zkvalitnění datových souborů před jejich analýzou a následně i alternativním způsobem zkoumání dat. Praktická aplikace metod detekce outlierů se postupem času stále rozšiřuje, stejně jako i řešené množství úloh. Tato práce si klade za cíl prozkoumání, výběr vhodných metod a aplikaci za účelem řešení konkrétního praktického problému. Jde o vyhledání chybných hodnot a vícerozměrnou detekci odlehlých bodů v značně rozsáhlých multidimenzionálních souborech z trhu ICT. V průběhu řešení problému se implementovaly a naprogramovaly několik metod detekce -- jak jednorozměrných, tak i vícerozměrných algoritmů. Dále se také demonstruje praktické využití detekce outlierů, analyzují se vhodnost, výhody a nevýhody metod s návrhem případných zlepšení nebo alternativních postupů. Výsledkem se podařilo najít chybné hodnoty v datech a naplnit jiné cíle zkoumání stanovené společností IDC CEMA, s.r.o.
Klíčová slova: IDC; RStudio; ICT; distance-based; vícerozměrná identifikace; detekce odlehlých pozorování
Název práce: Outlier Detection – an application to IT market data
Autor(ka) práce: Arzumanov, Robert
Typ práce: Diploma thesis
Vedoucí práce: Černý, Michal
Oponenti práce: Pelikán, Jan
Jazyk práce: Česky
Abstrakt:
Outlier identification has been a frequently-used data cleaning procedure for several decades, later on becoming an alternative approach to viewing and analysing data. Practical application of outlier identification methods and tasks solved widely vary and continuously develop over time. This thesis sets a goal of overview and selection of the most appropriate methods for subsequent application in order to solve a concrete practical problem. The aim is to clean the obtained datasets from erroneous observations and perform various multivariate outlier detection procedures. Several detection algorithms were programmed and applied to the given dataset. Practical results are demonstrated, discussion on suitability, advantages and disadvantages is held, including improvement or alternatives suggestions. As a result, errors were filtered out and several other problems set by IDC CEMA, s.r.o. were solved.
Klíčová slova: IDC; RStudio; outlier identification; ICT; distance-based outliers; multivariate outlier detection

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Ekonometrie a operační výzkum
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra ekonometrie

Informace o odevzdání a obhajobě

Datum zadání práce: 13. 1. 2014
Datum podání práce: 1. 10. 2014
Datum obhajoby: 9. 9. 2014
Identifikátor v systému InSIS: https://insis.vse.cz/zp/46091/podrobnosti

Soubory ke stažení

    Poslední aktualizace: