Analyzing Data Lakehouse: The Latest Evolution of Big Data Architectures and Its Benefits for Data Science

Thesis title: Analyzing Data Lakehouse: The Latest Evolution of Big Data Architectures and Its Benefits for Data Science
Author: Holub, Ondřej
Thesis type: Diploma thesis
Supervisor: Máša, Petr
Opponents: Rauch, Jan
Thesis language: English
Abstract:
The data lakehouse is a new-generation distributed data analytics platform architecture that combines key benefits of data lakes and warehouses into a unified design, reconciling diverse data science and business intelligence workloads over a common data foundation. This thesis examines the novel data lakehouse architecture and a set of associated data preprocessing and data science technologies and demonstrates how data science projects can benefit from them. First, the author describes and analyzes the emerging lakehouse architectural pattern with a primary focus on data storage, integration, and preprocessing as an integral lifecycle stage for data and knowledge mining projects and methods such as machine learning. Second, the thesis describes modules of the Apache Spark ecosystem relevant for machine learning and streaming. Third, the author formulates a subset of challenges observed in current enterprise big data preprocessing and machine learning practice and verifies how integrating described technologies can lead to partially or fully answering such challenges and ultimately increase the business value gained from data science. This work presents a proof of concept implementation illustrating streaming data preprocessing, interactive machine learning feature engineering and modeling, and streaming predictions in the context of a simulated data science project, demonstrating the resolution of the defined data engineering challenges observed in the data science lifecycle, such as supporting data reproducibility and handling upserts, using distributed data lakehouse technologies in a cloud setting.
Keywords: data lakehouse; data science; data engineering; big data; machine learning; Delta Lake; Apache Spark
Thesis title: Analýza data lakehouse: Nejnovější evoluce v big data architekturách a její přínosy pro data science
Author: Holub, Ondřej
Thesis type: Diplomová práce
Supervisor: Máša, Petr
Opponents: Rauch, Jan
Thesis language: English
Abstract:
Data lakehouse je novou generací architektur distribuovaných platforem pro datovou analýzu, která v unifikovaném modelu spojuje klíčové výhody platforem data lake a data warehouse a umožňuje provádět různorodé data science a business intelligence úlohy nad společnou datovou základnou. Tato práce zkoumá nově přicházející architekturu data lakehouse a sadu souvisejících technologií pro předzpracování dat a data science a ukazuje, jak z nich mohou profitovat data science projekty. Autor nejprve popisuje a analyzuje tento nový lakehouse architektonický model s primárním zaměřením na ukládání, integraci a předzpracování dat jako nedílnou fázi životního cyklu projektů v oblasti získávání znalostí z dat a metod jako je strojové učení. Zadruhé práce popisuje moduly ekosystému Apache Spark relevantní pro strojové učení a streaming. Zatřetí autor formuluje podmnožinu výzev pozorovaných v současné praxi big data předzpracování a strojového učení a ověřuje, jak může integrace popsaných technologií vést k částečnému či úplnému zodpovězení těchto výzev a v konečném důsledku ke zvýšení přínosu data science pro firmy. Tato práce představuje proof of concept implementaci ilustrující streamové předzpracování dat, interaktivní inženýrství atributů a tvorbu modelů strojového učení a streamové predikce v kontextu simulovaného data science projektu, která demonstruje řešení definovaných výzev datového inženýrství pozorovaných v životním cyklu data science projektů, jako je podpora pro reprodukovatelnost dat a upserty, pomocí distribuovaných data lakehouse technologií v cloudovém prostředí.
Keywords: data lakehouse; data science; datové inženýrství; big data; strojové učení; Delta Lake; Apache Spark

Information about study

Study programme: Aplikovaná informatika/Znalostní a webové technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 23. 3. 2022
Date of submission: 28. 4. 2022
Date of defense: 1. 6. 2022
Identifier in the InSIS system: https://insis.vse.cz/zp/75024/podrobnosti

Files for download

    Last update: