Shlukování binárních dat v distribuovaném výpočetním prostředí
Název práce: | Shlukování binárních dat v distribuovaném výpočetním prostředí |
---|---|
Autor(ka) práce: | Dalecký, Šimon |
Typ práce: | Diplomová práce |
Vedoucí práce: | Máša, Petr |
Oponenti práce: | Nevyhoštěný, Radek |
Jazyk práce: | Česky |
Abstrakt: | Tato diplomová práce se věnuje identifikaci modelových portfolií v rámci rozsáhlých datových souborů, kdy rozměry datových souborů odpovídají desítkám milionů záznamů a tisícovkám popisných atributů. Jedním z nejvhodnějších nástrojů pro zpracování a analýzu rozsáhlých datových souborů je v současnosti Apache Spark, který poskytuje rozhraní pro zpracovávání dat na výpočetních clusterech a pomocí paralelizace zpracování a výpočtů dovoluje v krátkém čase analyzovat rozsáhlé datové soubory. Úlohu identifikace investičních modelových portfolií lze pojmout jako úlohu shlukování dat. Za účelem hledání vhodného algoritmu byla provedena rešerše dostupných implementací shlukovacích algoritmů pro platformu Apache Spark, kdy nebyla nalezena žádná vhodná implementace, pro řešení této úlohy. Cílem této práce je návrh a praktická implementace metody pro shlukování rozsáhlých datových souborů popsaných binárními proměnnými v jazyce Scala, která je použitelná pro paralelní výpočetní zpracování pomocí platformy Apache Spark. Nejdůležitější charakteristikou této metody není nutnost specifikovat počet hledaných shluků. Navrhovaná metoda shlukování byla nejprve evaluována na základě syntetického datového souboru a následně s drobnými modifikacemi ověřena při řešení reálné úlohy identifikace investičních modelových portfolií. Výsledky shlukování na základě navrhované metody byly v souladu s očekáváním dle doménové znalosti zadavatele úlohy a očekává se reálné používání metody ve firmě zadavatele úlohy. |
Klíčová slova: | big data; binární proměnné; shluková analýza; Spark |
Název práce: | Clustering of Binary Data in a Distributed Computing Environment |
---|---|
Autor(ka) práce: | Dalecký, Šimon |
Typ práce: | Diploma thesis |
Vedoucí práce: | Máša, Petr |
Oponenti práce: | Nevyhoštěný, Radek |
Jazyk práce: | Česky |
Abstrakt: | The scope of master thesis is to identify model investment portfolios within large datasets, where the dimensions of the datasets correspond to tens of millions of records and thousands of descriptive attributes. One of the most suitable tools for large-scale data processing is currently Apache Spark, which provides an interface for programming entire clusters with implicit data parallelism. The task of identifying investment model portfolios can be understood as the task of data clustering. To find a suitable algorithm, the research of accessible implementations of clustering algorithms for Apache Spark platform was concluded, where any of suitable implementation for this task was not found. This master thesis puts forward a proposal and practical implementation of methods for clustering large datasets, which are described by binary variables in the Scala language and that are applicable to parallel processing using Apache Spark platform. The most significant characteristic of this method is no need to specify the number of searched clusters. The proposed method of clustering was first evaluated based on a synthetic dataset and subsequently used with minor modifications to solve the real use-case of identifying investment model portfolios. The results of clustering, which was based on the proposed method were in line with expectations according to the domain knowledge of client. It is expected that the proposed method will be soon deployed for the production use in the client’s company. |
Klíčová slova: | Spark; big data; binary features; cluster analysis |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Znalostní a webové technologie |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 6. 4. 2020 |
---|---|
Datum podání práce: | 1. 5. 2021 |
Datum obhajoby: | 8. 6. 2021 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/73152/podrobnosti |
Soubory ke stažení
Hlavní práce
Neveřejný soubor Stáhnout
Neveřejný soubor Stáhnout