Přístupy k shlukování funkčních dat

Název práce: Přístupy k shlukování funkčních dat
Autor(ka) práce: Pešout, Pavel
Typ práce: Disertační práce
Vedoucí práce: Marek, Luboš
Oponenti práce: Trešl, Jiří; Palát, Milan
Jazyk práce: Česky
Abstrakt:
Klasifikační úlohy jsou běžnými součástmi procesů zpracování informací a důležitými aspekty v mnoha vědeckých i průmyslových oblastech. V případě funkčních dat závislé proměnné, jako je například čas, však standardní shlukovací algoritmy mohou selhat. Nezajímají nás totiž pouze vybraná pozorování, nýbrž průběhy celých trajektorií. Předkládaná práce se proto zabývá speciálními technikami shlukování křivek a klasifikací nových trajektorií do již vytvořených shluků. Hlavními cíli jsou vývoj alternativních metodologií skrze rozvinutí některých stávajících statistických přístupů, konsolidace algoritmů již zavedených a vytvoření jejich modifikovaných podob přizpůsobených požadavkům shlukovací úlohy. V neposlední řadě je díky provedeným experimentům vytvořeno ucelené srovnání praktické využitelnosti. Ilustrované algoritmy jsou založeny na dvou různých principech. Prvním je předpoklad, že pozorování křivek jsou generována z konečného modelu sestávajícího se z regresních komponent. Zkoumány jsou metody vycházející z maximální věrohodnosti, a to jak Maximum Likehood Approach, ve které jsou shlukové příslušnosti chápány jako jedny z parametrů modelu, tak pravděpodobnostní směsi hustot s iterativním Expectation-Maximization algoritmem, v nichž se se shlukovými příslušnostmi naopak nakládá jako s náhodnými veličinami. Kvůli nalezení co nejvíce stejnorodých shluků jsou voleny směsi Gaussovy i méně tradiční gamma. Ty jsou v práci upraveny tak, aby mohly být užity ve dvourozměrné dimenzi. S ohledem na data s vysokou vnitroshlukovou variabilitou je popsán model dvou úrovní umožňující vysokou míru individuality heterogenního chování. Druhým principem je uplatnění dobře známého algoritmu K-průměrů, jenž je však aplikován nikoliv na původní pozorování, ale namísto toho na koeficienty interpolace. Jelikož není invariantní vůči lineárním transformacím, je speciální pozornost věnována závažné otázce výběru typu interpolace. Z toho důvodu je ve snaze o určení optimálního počtu a polohy interpolačních uzlů navrženo propojení shlukovací úlohy s Markov Chain Monte Carlo technikami. Součástí práce jsou také studie problematiky zařazení nových křivek do již vytvořených shluků, tedy diskriminační analýzy a lineárních i kvadratických skórů. Nově definovány jsou jejich modifikované pravděpodobnostní podoby navazující na modely směsí hustot a inovativní způsob aplikace Fisherovy kanonické metody na regresní koeficienty. Všechny modely jsou demonstrovány na experimentech shlukování uměle vygenerovaných funkčních dat, porovnány jsou výsledková efektivita i časová náročnost. Významným přínosem je sestavení nových účelných aplikačních postupů. Implementace je provedena v Mathematice 4.0. Značný prostor je dále vymezen možnostem, které vývoj metod shlukování křivek naskýtá v rozsáhlých odvětvích moderní vědy, jako jsou neurologie, genomové studie nebo systémy rozpoznávání řeči a obrazu, a stranou není ponechán ani směr budoucího výzkumu ve spojení s ubiquitous computingem. Využitelnost v ekonomické oblasti ilustruje aplikace v analýze storen v životním pojištění. Definovaných cílů práce bylo dosaženo.
Klíčová slova: diskriminační funkce; interpolace křivek; modely směsí; shlukování funkčních dat
Název práce: Approaches to Functional Data Clustering
Autor(ka) práce: Pešout, Pavel
Typ práce: Dissertation thesis
Vedoucí práce: Marek, Luboš
Oponenti práce: Trešl, Jiří; Palát, Milan
Jazyk práce: Česky
Abstrakt:
Classification is a very common task in information processing and important problem in many sectors of science and industry. In the case of data measured as a function of a dependent variable such as time, the most used algorithms may not pattern each of the individual shapes properly, because they are interested only in the choiced measurements. For the reason, the presented paper focuses on the specific techniques that directly address the curve clustering problem and classifying new individuals. The main goal of this work is to develop alternative methodologies through the extension to various statistical approaches, consolidate already established algorithms, expose their modified forms fitted to demands of clustering issue and compare some efficient curve clustering methods thanks to reported extensive simulated data experiments. Last but not least is made, for the sake of executed experiments, comprehensive confrontation of effectual utility. Proposed clustering algorithms are based on two principles. Firstly, it is presumed that the set of trajectories may be probabilistic modelled as sequences of points generated from a finite mixture model consisting of regression components and hence the density-based clustering methods using the Maximum Likehood Estimation are investigated to recognize the most homogenous partitioning. Attention is paid to both the Maximum Likehood Approach, which assumes the cluster memberships to be some of the model parameters, and the probabilistic model with the iterative Expectation-Maximization algorithm, that assumes them to be random variables. To deal with the hidden data problem both Gaussian and less conventional gamma mixtures are comprehended with arranging for use in two dimensions. To cope with data with high variability within each subpopulation it is introduced two-level random effects regression mixture with the ability to let an individual vary from the template for its group. Secondly, it is taken advantage of well known K-Means algorithm applied to the estimated regression coefficients, though. The task of the optimal data fitting is devoted, because K-Means is not invariant to linear transformations. In order to overcome this problem it is suggested integrating clustering issue with the Markov Chain Monte Carlo approaches. What is more, this paper is concerned in functional discriminant analysis including linear and quadratic scores and their modified probabilistic forms by using random mixtures. Alike in K-Means it is shown how to apply Fisher's method of canonical scores to the regression coefficients. Experiments of simulated datasets are made that demonstrate the performance of all mentioned methods and enable to choose those with the most result and time efficiency. Considerable boon is the facture of new advisable application advances. Implementation is processed in Mathematica 4.0. Finally, the possibilities offered by the development of curve clustering algorithms in vast research areas of modern science are examined, like neurology, genome studies, speech and image recognition systems, and future investigation with incorporation with ubiquitous computing is not forbidden. Utility in economy is illustrated with executed application in claims analysis of some life insurance products. The goals of the thesis have been achieved.
Klíčová slova: discriminant functions; curve interpolation; mixture models; functional data clustering

Informace o studiu

Studijní program / obor: Kvantitativní metody v ekonomice/Statistika
Typ studijního programu: Doktorský studijní program
Přidělovaná hodnost: Ph.D.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra statistiky a pravděpodobnosti

Informace o odevzdání a obhajobě

Datum zadání práce: 30. 9. 2007
Datum podání práce: 30. 9. 2012
Datum obhajoby: 11. 6. 2010
Identifikátor v systému InSIS: https://insis.vse.cz/zp/14829/podrobnosti

Soubory ke stažení

    Poslední aktualizace: