Evaluation of clustering methods for time series

Thesis title: Hodnocení úspěšnosti metod při shlukování časových řad
Author: Bakuncová, Karolína
Thesis type: Diplomová práce
Supervisor: Löster, Tomáš
Opponents: Danko, Jakub
Thesis language: Česky
Abstract:
Cílem práce je hodnocení vybraných metod shlukování na třinácti náhodně vybraných datových souborech z archívu UCR. Shlukování se provádí pomocí balíčku TSclust a dtwclust v R. Výsledky shlukování se napříč všemi třinácti datovými soubory výrazně liší. Z hlediska nejúspěšnějších postupů je možné předpokládat alespoň třetinu správně zařazených objektů. Obecně nejúspěšnější hierarchickou metodou shlukování byla metoda nejvzdálenějšího souseda (nejvyšší dosáhnutá hodnota koeficientu podobnosti 0,8655). Nejúspěšnější míra vzdálenosti představuje vzdálenost DTW (nejvyšší dosáhnutá hodnota ARI 0,6135). Druhou poměrně úspěšnou vzdáleností byla míra ACF. Pro nehierarchické metody není možné jednoznačně určit metodu, která by výrazně převažovala kvalitou výsledky ostatních zkoumaných nehierarchických metod. Obecně byly výsledky nehierarchickcýh metod velmi srovnatelné. Z hlediska kvality metody hierarchické poskytují výsledky mírně lepší (př. ARI koeficient nejúspěšnějších metod souboru Yoga pro hierarchické metody představuje hodnotu 0,0266 a pro nehierarchické 0,0031). Výrazná vizuální odlišnost mezi skupinami a celkově nižší počet kategorií vedli k lepším výsledkům shlukování jako takovým (př. nejnižší hodnota koeficientu podobnosti 0,2928 pro soubor Phoneme s 39 kategoriemi). V případě jemnějších rozdílů mezi časovými řadami je zkoumané metody shlukování nebyly schopné spolehlivě mezi sebou rozlišit. Koeficienty kvality poskytují často poměrně sporné závěry a je nutné jejich korektnost ověřovat bližším zkoumáním výsledného rozdělení shlukovaných objektů (př. soubor DistalPhalanxOutlineCorrect, kde koeficient podobnosti dosahuje hodnoty 0,5513 ale koeficient ARI velmi nízké hodnoty 0,0037).
Keywords: časové řady; shlukování; vícerozměrná statistika
Thesis title: Evaluation of clustering methods for time series
Author: Bakuncová, Karolína
Thesis type: Diploma thesis
Supervisor: Löster, Tomáš
Opponents: Danko, Jakub
Thesis language: Česky
Abstract:
The main goal of this paper is the evaluation of selected clustering methods on thirteen randomly selected data files from the UCR archive. Clustering itself is performed by using the TSclust and dtwclust packages in R. The clustering results vary significantly across all thirteen datasets. Based on the most successful procedures, it is possible to guarantee at least a third of correctly classified objects, where for half of the datasets the success rate increases to around one half. The most successful hierarchical clustering method was by far the farthest neighbor method (highest achieved similarity coefficient 0,8655), while the most successful distance measure is DTW distance (highest achieved ARI 0,6135). Second relatively successful distance is the ACF measure. For non-hierarchical methods, it is not possible to unequivocally determine a method that would significantly outweigh the quality of the results for the other investigated non-hierarchical methods. In general, the results of the non-hierarchical methods were very comparable. In terms of quality, hierarchical methods provide slightly better results (ex. dataset Yoga hierarchical methods achieved ARI 0,0266 while non-hierarchical ARI 0,0031). A significant visual difference between groups and an overall lower number of categories led to better clustering results (ex. the lowest similarity coefficient 0,2928 was found for the dataset Phoneme with 39 categories). The investigated clustering methods were not able to reliably distinguish between the more subtle differences of time series. Quality coefficients often provide rather questionable conclusions, leading to the necessity of verifying their results via closer examination of the resulting clusters (ex. DistalPhalanxOutlineCorrect similarity coefficient 0,5513 and ARI 0,0037).
Keywords: time series; clustering; multivariate statistics

Information about study

Study programme: Statistika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Statistics and Probability

Information on submission and defense

Date of assignment: 17. 10. 2023
Date of submission: 29. 4. 2024
Date of defense: 3. 6. 2024
Identifier in the InSIS system: https://insis.vse.cz/zp/86062/podrobnosti

Files for download

    Last update: