Implementation of near-real time big data application in a real-world setting

Thesis title: Implementace near-real time big data aplikace v praxi
Author: Srp, Daniel
Thesis type: Diplomová práce
Supervisor: Novotný, Ota
Opponents: Kufner, Jiří
Thesis language: Česky
Abstract:
Tato diplomová práce se zaměřuje na návrh a implementaci near-realtime big data aplikace v konceptu Data Lake podle osvědčených metodik Komerční banky. Hlavním cílem je vytvořit novou aplikaci s názvem LAKE DEUS, která umožní efektivní zpracování a distribuci velkého objemu dat v téměř reálném čase a současně zajistí vysokou kvalitu, dostupnost a spolehlivost dat. Tato práce se hloubkově zabývá koncepty big dat a metodami jejich real-time zpracování. Klíčovým prvkem je podrobný rozbor architektury nové aplikace LAKE DEUS, navržené k implementaci těchto konceptů. Text dále podrobně rozebírá fáze tvorby a nasazení aplikace, její streamové napojení na datový zdroj, jejich následné zpracování a zpřístupnění odběratelům. Přitom se zaměřuje na pokročilé metody zpracování a modelování dat, automatizaci procesů a sledování kvality dat. Jeden z klíčových bodů práce sestává také ze srovnávání a hodnocení různých metod a technologií použitých při implementaci aplikace. Na základě těchto analýz jsou formulována doporučení pro budoucí rozvoj projektu. Výsledkem této práce je komplexní near-realtime big data aplikace, která plní metodické požadavky Komerční banky a bude sloužit jako vzorový model pro budoucí projekty v oblasti big data a near-realtime zpracování dat na big data platformě v koncepci Data Lake.
Keywords: data lake; big data; datová architektura; near-realtime zpracování dat; Spark
Thesis title: Implementation of near-real time big data application in a real-world setting
Author: Srp, Daniel
Thesis type: Diploma thesis
Supervisor: Novotný, Ota
Opponents: Kufner, Jiří
Thesis language: Česky
Abstract:
This thesis focuses on the design and implementation of a near-realtime big data application in the Data Lake concept according to the proven methodologies of Komerční banka. The main goal is to create a new application named LAKE DEUS, which will enable efficient processing and distribution of large volumes of data in near-real time, while ensuring high quality, availability, and reliability of data. This work delves deeply into big data concepts and methods of their real-time processing. A key element is a detailed analysis of the architecture of the new LAKE DEUS application, designed to implement these concepts. The text further elaborately discusses the phases of creation and deployment of the application, its streaming connection to the data source, subsequent processing, and making data available to subscribers. It focuses on advanced methods of data processing and modeling, process automation, and data quality monitoring. One of the key points of the work also consists of comparing and evaluating various methods and technologies used in the application's implementation. Based on these analyses, recommendations for the future development of the project are formulated. The result of this work is a comprehensive near-realtime big data application that meets the methodological requirements of Komerční banka and will serve as a model for future projects in the field of big data and near-realtime data processing on a big data platform in the Data Lake concept.
Keywords: Spark; near-realtime data processing; big data; data lake; data architecture

Information about study

Study programme: Data a analytika pro business
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 1. 5. 2023
Date of submission: 3. 12. 2023
Date of defense: 22. 1. 2024
Identifier in the InSIS system: https://insis.vse.cz/zp/86271/podrobnosti

Files for download

Main text
Private file
Download
    Last update: