Clustering of Binary Data in a Distributed Computing Environment
Thesis title: | Shlukování binárních dat v distribuovaném výpočetním prostředí |
---|---|
Author: | Dalecký, Šimon |
Thesis type: | Diplomová práce |
Supervisor: | Máša, Petr |
Opponents: | Nevyhoštěný, Radek |
Thesis language: | Česky |
Abstract: | Tato diplomová práce se věnuje identifikaci modelových portfolií v rámci rozsáhlých datových souborů, kdy rozměry datových souborů odpovídají desítkám milionů záznamů a tisícovkám popisných atributů. Jedním z nejvhodnějších nástrojů pro zpracování a analýzu rozsáhlých datových souborů je v současnosti Apache Spark, který poskytuje rozhraní pro zpracovávání dat na výpočetních clusterech a pomocí paralelizace zpracování a výpočtů dovoluje v krátkém čase analyzovat rozsáhlé datové soubory. Úlohu identifikace investičních modelových portfolií lze pojmout jako úlohu shlukování dat. Za účelem hledání vhodného algoritmu byla provedena rešerše dostupných implementací shlukovacích algoritmů pro platformu Apache Spark, kdy nebyla nalezena žádná vhodná implementace, pro řešení této úlohy. Cílem této práce je návrh a praktická implementace metody pro shlukování rozsáhlých datových souborů popsaných binárními proměnnými v jazyce Scala, která je použitelná pro paralelní výpočetní zpracování pomocí platformy Apache Spark. Nejdůležitější charakteristikou této metody není nutnost specifikovat počet hledaných shluků. Navrhovaná metoda shlukování byla nejprve evaluována na základě syntetického datového souboru a následně s drobnými modifikacemi ověřena při řešení reálné úlohy identifikace investičních modelových portfolií. Výsledky shlukování na základě navrhované metody byly v souladu s očekáváním dle doménové znalosti zadavatele úlohy a očekává se reálné používání metody ve firmě zadavatele úlohy. |
Keywords: | big data; binární proměnné; shluková analýza; Spark |
Thesis title: | Clustering of Binary Data in a Distributed Computing Environment |
---|---|
Author: | Dalecký, Šimon |
Thesis type: | Diploma thesis |
Supervisor: | Máša, Petr |
Opponents: | Nevyhoštěný, Radek |
Thesis language: | Česky |
Abstract: | The scope of master thesis is to identify model investment portfolios within large datasets, where the dimensions of the datasets correspond to tens of millions of records and thousands of descriptive attributes. One of the most suitable tools for large-scale data processing is currently Apache Spark, which provides an interface for programming entire clusters with implicit data parallelism. The task of identifying investment model portfolios can be understood as the task of data clustering. To find a suitable algorithm, the research of accessible implementations of clustering algorithms for Apache Spark platform was concluded, where any of suitable implementation for this task was not found. This master thesis puts forward a proposal and practical implementation of methods for clustering large datasets, which are described by binary variables in the Scala language and that are applicable to parallel processing using Apache Spark platform. The most significant characteristic of this method is no need to specify the number of searched clusters. The proposed method of clustering was first evaluated based on a synthetic dataset and subsequently used with minor modifications to solve the real use-case of identifying investment model portfolios. The results of clustering, which was based on the proposed method were in line with expectations according to the domain knowledge of client. It is expected that the proposed method will be soon deployed for the production use in the client’s company. |
Keywords: | Spark; big data; binary features; cluster analysis |
Information about study
Study programme: | Aplikovaná informatika/Znalostní a webové technologie |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 6. 4. 2020 |
---|---|
Date of submission: | 1. 5. 2021 |
Date of defense: | 8. 6. 2021 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/73152/podrobnosti |
Files for download
Main text
Private file Download
Private file Download