Outlier Detection – an application to IT market data

Thesis title: Detekce odlehlých pozorování – aplikace metod na data IT trhu
Author: Arzumanov, Robert
Thesis type: Diplomová práce
Supervisor: Černý, Michal
Opponents: Pelikán, Jan
Thesis language: Česky
Abstract:
Detekce odlehlých pozorování se již dávno stala často používaným krokem ke zkvalitnění datových souborů před jejich analýzou a následně i alternativním způsobem zkoumání dat. Praktická aplikace metod detekce outlierů se postupem času stále rozšiřuje, stejně jako i řešené množství úloh. Tato práce si klade za cíl prozkoumání, výběr vhodných metod a aplikaci za účelem řešení konkrétního praktického problému. Jde o vyhledání chybných hodnot a vícerozměrnou detekci odlehlých bodů v značně rozsáhlých multidimenzionálních souborech z trhu ICT. V průběhu řešení problému se implementovaly a naprogramovaly několik metod detekce -- jak jednorozměrných, tak i vícerozměrných algoritmů. Dále se také demonstruje praktické využití detekce outlierů, analyzují se vhodnost, výhody a nevýhody metod s návrhem případných zlepšení nebo alternativních postupů. Výsledkem se podařilo najít chybné hodnoty v datech a naplnit jiné cíle zkoumání stanovené společností IDC CEMA, s.r.o.
Keywords: IDC; RStudio; ICT; distance-based; vícerozměrná identifikace; detekce odlehlých pozorování
Thesis title: Outlier Detection – an application to IT market data
Author: Arzumanov, Robert
Thesis type: Diploma thesis
Supervisor: Černý, Michal
Opponents: Pelikán, Jan
Thesis language: Česky
Abstract:
Outlier identification has been a frequently-used data cleaning procedure for several decades, later on becoming an alternative approach to viewing and analysing data. Practical application of outlier identification methods and tasks solved widely vary and continuously develop over time. This thesis sets a goal of overview and selection of the most appropriate methods for subsequent application in order to solve a concrete practical problem. The aim is to clean the obtained datasets from erroneous observations and perform various multivariate outlier detection procedures. Several detection algorithms were programmed and applied to the given dataset. Practical results are demonstrated, discussion on suitability, advantages and disadvantages is held, including improvement or alternatives suggestions. As a result, errors were filtered out and several other problems set by IDC CEMA, s.r.o. were solved.
Keywords: IDC; RStudio; outlier identification; ICT; distance-based outliers; multivariate outlier detection

Information about study

Study programme: Kvantitativní metody v ekonomice/Ekonometrie a operační výzkum
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Econometrics

Information on submission and defense

Date of assignment: 13. 1. 2014
Date of submission: 1. 10. 2014
Date of defense: 9. 9. 2014
Identifier in the InSIS system: https://insis.vse.cz/zp/46091/podrobnosti

Files for download

    Last update: