Clustering of Binary Data in a Distributed Computing Environment

Thesis title: Shlukování binárních dat v distribuovaném výpočetním prostředí
Author: Dalecký, Šimon
Thesis type: Diplomová práce
Supervisor: Máša, Petr
Opponents: Nevyhoštěný, Radek
Thesis language: Česky
Abstract:
Tato diplomová práce se věnuje identifikaci modelových portfolií v rámci rozsáhlých datových souborů, kdy rozměry datových souborů odpovídají desítkám milionů záznamů a tisícovkám popisných atributů. Jedním z nejvhodnějších nástrojů pro zpracování a analýzu rozsáhlých datových souborů je v současnosti Apache Spark, který poskytuje rozhraní pro zpracovávání dat na výpočetních clusterech a pomocí paralelizace zpracování a výpočtů dovoluje v krátkém čase analyzovat rozsáhlé datové soubory. Úlohu identifikace investičních modelových portfolií lze pojmout jako úlohu shlukování dat. Za účelem hledání vhodného algoritmu byla provedena rešerše dostupných implementací shlukovacích algoritmů pro platformu Apache Spark, kdy nebyla nalezena žádná vhodná implementace, pro řešení této úlohy. Cílem této práce je návrh a praktická implementace metody pro shlukování rozsáhlých datových souborů popsaných binárními proměnnými v jazyce Scala, která je použitelná pro paralelní výpočetní zpracování pomocí platformy Apache Spark. Nejdůležitější charakteristikou této metody není nutnost specifikovat počet hledaných shluků. Navrhovaná metoda shlukování byla nejprve evaluována na základě syntetického datového souboru a následně s drobnými modifikacemi ověřena při řešení reálné úlohy identifikace investičních modelových portfolií. Výsledky shlukování na základě navrhované metody byly v souladu s očekáváním dle doménové znalosti zadavatele úlohy a očekává se reálné používání metody ve firmě zadavatele úlohy.
Keywords: big data; binární proměnné; shluková analýza; Spark
Thesis title: Clustering of Binary Data in a Distributed Computing Environment
Author: Dalecký, Šimon
Thesis type: Diploma thesis
Supervisor: Máša, Petr
Opponents: Nevyhoštěný, Radek
Thesis language: Česky
Abstract:
The scope of master thesis is to identify model investment portfolios within large datasets, where the dimensions of the datasets correspond to tens of millions of records and thousands of descriptive attributes. One of the most suitable tools for large-scale data processing is currently Apache Spark, which provides an interface for programming entire clusters with implicit data parallelism. The task of identifying investment model portfolios can be understood as the task of data clustering. To find a suitable algorithm, the research of accessible implementations of clustering algorithms for Apache Spark platform was concluded, where any of suitable implementation for this task was not found. This master thesis puts forward a proposal and practical implementation of methods for clustering large datasets, which are described by binary variables in the Scala language and that are applicable to parallel processing using Apache Spark platform. The most significant characteristic of this method is no need to specify the number of searched clusters. The proposed method of clustering was first evaluated based on a synthetic dataset and subsequently used with minor modifications to solve the real use-case of identifying investment model portfolios. The results of clustering, which was based on the proposed method were in line with expectations according to the domain knowledge of client. It is expected that the proposed method will be soon deployed for the production use in the client’s company.
Keywords: Spark; big data; binary features; cluster analysis

Information about study

Study programme: Aplikovaná informatika/Znalostní a webové technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 6. 4. 2020
Date of submission: 1. 5. 2021
Date of defense: 8. 6. 2021
Identifier in the InSIS system: https://insis.vse.cz/zp/73152/podrobnosti

Files for download

Main text
Private file
Download
    Last update: