Analýza data lakehouse: Nejnovější evoluce v big data architekturách a její přínosy pro data science

Název práce: Analyzing Data Lakehouse: The Latest Evolution of Big Data Architectures and Its Benefits for Data Science
Autor(ka) práce: Holub, Ondřej
Typ práce: Diploma thesis
Vedoucí práce: Máša, Petr
Oponenti práce: Rauch, Jan
Jazyk práce: English
Abstrakt:
The data lakehouse is a new-generation distributed data analytics platform architecture that combines key benefits of data lakes and warehouses into a unified design, reconciling diverse data science and business intelligence workloads over a common data foundation. This thesis examines the novel data lakehouse architecture and a set of associated data preprocessing and data science technologies and demonstrates how data science projects can benefit from them. First, the author describes and analyzes the emerging lakehouse architectural pattern with a primary focus on data storage, integration, and preprocessing as an integral lifecycle stage for data and knowledge mining projects and methods such as machine learning. Second, the thesis describes modules of the Apache Spark ecosystem relevant for machine learning and streaming. Third, the author formulates a subset of challenges observed in current enterprise big data preprocessing and machine learning practice and verifies how integrating described technologies can lead to partially or fully answering such challenges and ultimately increase the business value gained from data science. This work presents a proof of concept implementation illustrating streaming data preprocessing, interactive machine learning feature engineering and modeling, and streaming predictions in the context of a simulated data science project, demonstrating the resolution of the defined data engineering challenges observed in the data science lifecycle, such as supporting data reproducibility and handling upserts, using distributed data lakehouse technologies in a cloud setting.
Klíčová slova: data lakehouse; data science; data engineering; big data; machine learning; Delta Lake; Apache Spark
Název práce: Analýza data lakehouse: Nejnovější evoluce v big data architekturách a její přínosy pro data science
Autor(ka) práce: Holub, Ondřej
Typ práce: Diplomová práce
Vedoucí práce: Máša, Petr
Oponenti práce: Rauch, Jan
Jazyk práce: English
Abstrakt:
Data lakehouse je novou generací architektur distribuovaných platforem pro datovou analýzu, která v unifikovaném modelu spojuje klíčové výhody platforem data lake a data warehouse a umožňuje provádět různorodé data science a business intelligence úlohy nad společnou datovou základnou. Tato práce zkoumá nově přicházející architekturu data lakehouse a sadu souvisejících technologií pro předzpracování dat a data science a ukazuje, jak z nich mohou profitovat data science projekty. Autor nejprve popisuje a analyzuje tento nový lakehouse architektonický model s primárním zaměřením na ukládání, integraci a předzpracování dat jako nedílnou fázi životního cyklu projektů v oblasti získávání znalostí z dat a metod jako je strojové učení. Zadruhé práce popisuje moduly ekosystému Apache Spark relevantní pro strojové učení a streaming. Zatřetí autor formuluje podmnožinu výzev pozorovaných v současné praxi big data předzpracování a strojového učení a ověřuje, jak může integrace popsaných technologií vést k částečnému či úplnému zodpovězení těchto výzev a v konečném důsledku ke zvýšení přínosu data science pro firmy. Tato práce představuje proof of concept implementaci ilustrující streamové předzpracování dat, interaktivní inženýrství atributů a tvorbu modelů strojového učení a streamové predikce v kontextu simulovaného data science projektu, která demonstruje řešení definovaných výzev datového inženýrství pozorovaných v životním cyklu data science projektů, jako je podpora pro reprodukovatelnost dat a upserty, pomocí distribuovaných data lakehouse technologií v cloudovém prostředí.
Klíčová slova: data lakehouse; data science; datové inženýrství; big data; strojové učení; Delta Lake; Apache Spark

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Znalostní a webové technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 23. 3. 2022
Datum podání práce: 28. 4. 2022
Datum obhajoby: 1. 6. 2022
Identifikátor v systému InSIS: https://insis.vse.cz/zp/75024/podrobnosti

Soubory ke stažení

    Poslední aktualizace: