Hodnocení úspěšnosti metod při shlukování časových řad
Název práce: | Hodnocení úspěšnosti metod při shlukování časových řad |
---|---|
Autor(ka) práce: | Bakuncová, Karolína |
Typ práce: | Diplomová práce |
Vedoucí práce: | Löster, Tomáš |
Oponenti práce: | Danko, Jakub |
Jazyk práce: | Česky |
Abstrakt: | Cílem práce je hodnocení vybraných metod shlukování na třinácti náhodně vybraných datových souborech z archívu UCR. Shlukování se provádí pomocí balíčku TSclust a dtwclust v R. Výsledky shlukování se napříč všemi třinácti datovými soubory výrazně liší. Z hlediska nejúspěšnějších postupů je možné předpokládat alespoň třetinu správně zařazených objektů. Obecně nejúspěšnější hierarchickou metodou shlukování byla metoda nejvzdálenějšího souseda (nejvyšší dosáhnutá hodnota koeficientu podobnosti 0,8655). Nejúspěšnější míra vzdálenosti představuje vzdálenost DTW (nejvyšší dosáhnutá hodnota ARI 0,6135). Druhou poměrně úspěšnou vzdáleností byla míra ACF. Pro nehierarchické metody není možné jednoznačně určit metodu, která by výrazně převažovala kvalitou výsledky ostatních zkoumaných nehierarchických metod. Obecně byly výsledky nehierarchickcýh metod velmi srovnatelné. Z hlediska kvality metody hierarchické poskytují výsledky mírně lepší (př. ARI koeficient nejúspěšnějších metod souboru Yoga pro hierarchické metody představuje hodnotu 0,0266 a pro nehierarchické 0,0031). Výrazná vizuální odlišnost mezi skupinami a celkově nižší počet kategorií vedli k lepším výsledkům shlukování jako takovým (př. nejnižší hodnota koeficientu podobnosti 0,2928 pro soubor Phoneme s 39 kategoriemi). V případě jemnějších rozdílů mezi časovými řadami je zkoumané metody shlukování nebyly schopné spolehlivě mezi sebou rozlišit. Koeficienty kvality poskytují často poměrně sporné závěry a je nutné jejich korektnost ověřovat bližším zkoumáním výsledného rozdělení shlukovaných objektů (př. soubor DistalPhalanxOutlineCorrect, kde koeficient podobnosti dosahuje hodnoty 0,5513 ale koeficient ARI velmi nízké hodnoty 0,0037). |
Klíčová slova: | časové řady; shlukování; vícerozměrná statistika |
Název práce: | Evaluation of clustering methods for time series |
---|---|
Autor(ka) práce: | Bakuncová, Karolína |
Typ práce: | Diploma thesis |
Vedoucí práce: | Löster, Tomáš |
Oponenti práce: | Danko, Jakub |
Jazyk práce: | Česky |
Abstrakt: | The main goal of this paper is the evaluation of selected clustering methods on thirteen randomly selected data files from the UCR archive. Clustering itself is performed by using the TSclust and dtwclust packages in R. The clustering results vary significantly across all thirteen datasets. Based on the most successful procedures, it is possible to guarantee at least a third of correctly classified objects, where for half of the datasets the success rate increases to around one half. The most successful hierarchical clustering method was by far the farthest neighbor method (highest achieved similarity coefficient 0,8655), while the most successful distance measure is DTW distance (highest achieved ARI 0,6135). Second relatively successful distance is the ACF measure. For non-hierarchical methods, it is not possible to unequivocally determine a method that would significantly outweigh the quality of the results for the other investigated non-hierarchical methods. In general, the results of the non-hierarchical methods were very comparable. In terms of quality, hierarchical methods provide slightly better results (ex. dataset Yoga hierarchical methods achieved ARI 0,0266 while non-hierarchical ARI 0,0031). A significant visual difference between groups and an overall lower number of categories led to better clustering results (ex. the lowest similarity coefficient 0,2928 was found for the dataset Phoneme with 39 categories). The investigated clustering methods were not able to reliably distinguish between the more subtle differences of time series. Quality coefficients often provide rather questionable conclusions, leading to the necessity of verifying their results via closer examination of the resulting clusters (ex. DistalPhalanxOutlineCorrect similarity coefficient 0,5513 and ARI 0,0037). |
Klíčová slova: | time series; clustering; multivariate statistics |
Informace o studiu
Studijní program / obor: | Statistika |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra statistiky a pravděpodobnosti |
Informace o odevzdání a obhajobě
Datum zadání práce: | 17. 10. 2023 |
---|---|
Datum podání práce: | 29. 4. 2024 |
Datum obhajoby: | 3. 6. 2024 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/86062/podrobnosti |