Analyzing Data Lakehouse: The Latest Evolution of Big Data Architectures and Its Benefits for Data Science
Thesis title: | Analyzing Data Lakehouse: The Latest Evolution of Big Data Architectures and Its Benefits for Data Science |
---|---|
Author: | Holub, Ondřej |
Thesis type: | Diploma thesis |
Supervisor: | Máša, Petr |
Opponents: | Rauch, Jan |
Thesis language: | English |
Abstract: | The data lakehouse is a new-generation distributed data analytics platform architecture that combines key benefits of data lakes and warehouses into a unified design, reconciling diverse data science and business intelligence workloads over a common data foundation. This thesis examines the novel data lakehouse architecture and a set of associated data preprocessing and data science technologies and demonstrates how data science projects can benefit from them. First, the author describes and analyzes the emerging lakehouse architectural pattern with a primary focus on data storage, integration, and preprocessing as an integral lifecycle stage for data and knowledge mining projects and methods such as machine learning. Second, the thesis describes modules of the Apache Spark ecosystem relevant for machine learning and streaming. Third, the author formulates a subset of challenges observed in current enterprise big data preprocessing and machine learning practice and verifies how integrating described technologies can lead to partially or fully answering such challenges and ultimately increase the business value gained from data science. This work presents a proof of concept implementation illustrating streaming data preprocessing, interactive machine learning feature engineering and modeling, and streaming predictions in the context of a simulated data science project, demonstrating the resolution of the defined data engineering challenges observed in the data science lifecycle, such as supporting data reproducibility and handling upserts, using distributed data lakehouse technologies in a cloud setting. |
Keywords: | data lakehouse; data science; data engineering; big data; machine learning; Delta Lake; Apache Spark |
Thesis title: | Analýza data lakehouse: Nejnovější evoluce v big data architekturách a její přínosy pro data science |
---|---|
Author: | Holub, Ondřej |
Thesis type: | Diplomová práce |
Supervisor: | Máša, Petr |
Opponents: | Rauch, Jan |
Thesis language: | English |
Abstract: | Data lakehouse je novou generací architektur distribuovaných platforem pro datovou analýzu, která v unifikovaném modelu spojuje klíčové výhody platforem data lake a data warehouse a umožňuje provádět různorodé data science a business intelligence úlohy nad společnou datovou základnou. Tato práce zkoumá nově přicházející architekturu data lakehouse a sadu souvisejících technologií pro předzpracování dat a data science a ukazuje, jak z nich mohou profitovat data science projekty. Autor nejprve popisuje a analyzuje tento nový lakehouse architektonický model s primárním zaměřením na ukládání, integraci a předzpracování dat jako nedílnou fázi životního cyklu projektů v oblasti získávání znalostí z dat a metod jako je strojové učení. Zadruhé práce popisuje moduly ekosystému Apache Spark relevantní pro strojové učení a streaming. Zatřetí autor formuluje podmnožinu výzev pozorovaných v současné praxi big data předzpracování a strojového učení a ověřuje, jak může integrace popsaných technologií vést k částečnému či úplnému zodpovězení těchto výzev a v konečném důsledku ke zvýšení přínosu data science pro firmy. Tato práce představuje proof of concept implementaci ilustrující streamové předzpracování dat, interaktivní inženýrství atributů a tvorbu modelů strojového učení a streamové predikce v kontextu simulovaného data science projektu, která demonstruje řešení definovaných výzev datového inženýrství pozorovaných v životním cyklu data science projektů, jako je podpora pro reprodukovatelnost dat a upserty, pomocí distribuovaných data lakehouse technologií v cloudovém prostředí. |
Keywords: | data lakehouse; data science; datové inženýrství; big data; strojové učení; Delta Lake; Apache Spark |
Information about study
Study programme: | Aplikovaná informatika/Znalostní a webové technologie |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 23. 3. 2022 |
---|---|
Date of submission: | 28. 4. 2022 |
Date of defense: | 1. 6. 2022 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/75024/podrobnosti |