Shlukování binárních dat v distribuovaném výpočetním prostředí

Název práce: Shlukování binárních dat v distribuovaném výpočetním prostředí
Autor(ka) práce: Dalecký, Šimon
Typ práce: Diplomová práce
Vedoucí práce: Máša, Petr
Oponenti práce: Nevyhoštěný, Radek
Jazyk práce: Česky
Abstrakt:
Tato diplomová práce se věnuje identifikaci modelových portfolií v rámci rozsáhlých datových souborů, kdy rozměry datových souborů odpovídají desítkám milionů záznamů a tisícovkám popisných atributů. Jedním z nejvhodnějších nástrojů pro zpracování a analýzu rozsáhlých datových souborů je v současnosti Apache Spark, který poskytuje rozhraní pro zpracovávání dat na výpočetních clusterech a pomocí paralelizace zpracování a výpočtů dovoluje v krátkém čase analyzovat rozsáhlé datové soubory. Úlohu identifikace investičních modelových portfolií lze pojmout jako úlohu shlukování dat. Za účelem hledání vhodného algoritmu byla provedena rešerše dostupných implementací shlukovacích algoritmů pro platformu Apache Spark, kdy nebyla nalezena žádná vhodná implementace, pro řešení této úlohy. Cílem této práce je návrh a praktická implementace metody pro shlukování rozsáhlých datových souborů popsaných binárními proměnnými v jazyce Scala, která je použitelná pro paralelní výpočetní zpracování pomocí platformy Apache Spark. Nejdůležitější charakteristikou této metody není nutnost specifikovat počet hledaných shluků. Navrhovaná metoda shlukování byla nejprve evaluována na základě syntetického datového souboru a následně s drobnými modifikacemi ověřena při řešení reálné úlohy identifikace investičních modelových portfolií. Výsledky shlukování na základě navrhované metody byly v souladu s očekáváním dle doménové znalosti zadavatele úlohy a očekává se reálné používání metody ve firmě zadavatele úlohy.
Klíčová slova: big data; binární proměnné; shluková analýza; Spark
Název práce: Clustering of Binary Data in a Distributed Computing Environment
Autor(ka) práce: Dalecký, Šimon
Typ práce: Diploma thesis
Vedoucí práce: Máša, Petr
Oponenti práce: Nevyhoštěný, Radek
Jazyk práce: Česky
Abstrakt:
The scope of master thesis is to identify model investment portfolios within large datasets, where the dimensions of the datasets correspond to tens of millions of records and thousands of descriptive attributes. One of the most suitable tools for large-scale data processing is currently Apache Spark, which provides an interface for programming entire clusters with implicit data parallelism. The task of identifying investment model portfolios can be understood as the task of data clustering. To find a suitable algorithm, the research of accessible implementations of clustering algorithms for Apache Spark platform was concluded, where any of suitable implementation for this task was not found. This master thesis puts forward a proposal and practical implementation of methods for clustering large datasets, which are described by binary variables in the Scala language and that are applicable to parallel processing using Apache Spark platform. The most significant characteristic of this method is no need to specify the number of searched clusters. The proposed method of clustering was first evaluated based on a synthetic dataset and subsequently used with minor modifications to solve the real use-case of identifying investment model portfolios. The results of clustering, which was based on the proposed method were in line with expectations according to the domain knowledge of client. It is expected that the proposed method will be soon deployed for the production use in the client’s company.
Klíčová slova: Spark; big data; binary features; cluster analysis

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Znalostní a webové technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 6. 4. 2020
Datum podání práce: 1. 5. 2021
Datum obhajoby: 8. 6. 2021
Identifikátor v systému InSIS: https://insis.vse.cz/zp/73152/podrobnosti

Soubory ke stažení

Hlavní práce
Neveřejný soubor
Stáhnout
    Poslední aktualizace: