Algorithms for finding local outliers

Thesis title: Algoritmy pro vyhledávání lokálně odlehlých pozorování
Author: Vintrová, Vanda
Thesis type: Disertační práce
Supervisor: Bílková, Diana
Opponents: Pecáková, Iva; Stankovičová, Iveta
Thesis language: Česky
Abstract:
V disertační práci jsou detailně ověřovány a hodnoceny metody navržené k určení stupně lokální odlehlosti vícerozměrných pozorování. Problematika se týká datových souborů tvořených vícerozměrnými pozorováními, které jsou již připraveny, aby na ně byla aplikována nějaká vícerozměrná statistická metoda. Každé pozorování charakterizuje určitý objekt pomocí hodnot sledovaných proměnných. Záměrem je zkoumat strukturu dat pomocí metod, jejichž výsledkem je identifikace odlehlých pozorování bez apriorních informací o souboru. Cílem disertační práce je prozkoumání algoritmů založených na hustotě, odvození obecného vzorce pro metody založené na hustotě a navržení jeho modifikace, čímž lze vytvořit množství nových algoritmů na výpočet faktoru odlehlosti. Jsou ověřeny vlastnosti algoritmů a vliv dílčích modifikací na výpočet. Jsou navrženy tabulky hraničních hodnot faktoru odlehlosti pro jednotlivé algoritmy v závislosti na rozměru úlohy, a to pro kvantily 0,9, 0,95 a 0,99. Stanovení hranice je důležité, neboť i u těchto algoritmů je potřeba znát přibližnou hodnotu faktoru odlehlosti, při jejímž překročení lze usuzovat na odlehlost daného pozorování. Účinnost algoritmů je ověřována nejen na souborech pozorování s nekorelovanými proměnnými, na které jsou tyto algoritmy optimalizovány, ale také na souborech pozorování s korelovanými proměnnými, aby bylo prozkoumáno, nakolik porušení tohoto předpokladu ovlivní výsledné hodnoty faktoru odlehlosti. Algoritmy jsou vzájemně porovnány. V souladu s cílem práce byly prozkoumány algoritmy založené na hustotě a na základě modifikací obecného vzorce byly navrženy nové algoritmy. Některé z navržených algoritmů se při porovnání umístily lépe než stávající algoritmy. Byly navrženy tabulky pro hraniční hodnoty faktoru odlehlosti a jejich funkčnost byla ověřena v provedených experimentech. Na široké škále experimentů byly porovnány vlastnosti algoritmů a jejich dílčích modifikací.
Keywords: LOF algoritmus; Faktor lokální odlehlosti; odlehlá pozorování; algoritmy založené na hustotě
Thesis title: Algorithms for finding local outliers
Author: Vintrová, Vanda
Thesis type: Dissertation thesis
Supervisor: Bílková, Diana
Opponents: Pecáková, Iva; Stankovičová, Iveta
Thesis language: Česky
Abstract:
In the dissertation thesis, the local outlier analysis techniques are verified and evaluated in details. The focus is on the multidimensional datasets prepared for the application of a multidimensional statistical method. Every observation characterizes an object by measured variables. The aim is to analyze the structure of the dataset without prior knowledge of the dataset. The aim of the dissertation thesis is the analysis of the density-based methods, the deduction of the general formula for the density-based methods and the proposition of its modifications, what results in creation of many new algorithms. The characteristics of the algorithms and the influence of the modifications on the results are analyzed. The tables of the border values of the local outlier factor for every algorithm depending on the dimension of the dataset are proposed for quantiles $0,9, 0,95$ a $0,99.$ It is important to know the border value of the local outlier factor that indicates an outlier. The algorithms are analyzed not only on the datasets with non corelated variables, for which these algorithms are optimized, but also on the datasets with correlated variables, to determine the influence of the correlation on the results. Algorithms are compared. In accordance with the aims of the thesis, the density-based algorithms were analyzed, and based on the proposed modifications of the general formula were proposed new algorithms. Some of the proposed algorithms can identify outliers better than existing algorithms. The tables of the border values were proposed and verified in numerous experiments. The characteristic of the algorithms and of the modifications were compared in various experiments.
Keywords: density-based outlier detection methods; LOF algorithm.; Local outlier factor; outliers

Information about study

Study programme: Kvantitativní metody v ekonomice/Statistika
Type of study programme: Doktorský studijní program
Assigned degree: Ph.D.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 25. 9. 2011
Date of submission: 10. 11. 2020
Date of defense: 12. 2. 2021
Identifier in the InSIS system: https://insis.vse.cz/zp/32835/podrobnosti

Files for download

    Last update: