Analýza data lakehouse: Nejnovější evoluce v big data architekturách a její přínosy pro data science
Název práce: | Analyzing Data Lakehouse: The Latest Evolution of Big Data Architectures and Its Benefits for Data Science |
---|---|
Autor(ka) práce: | Holub, Ondřej |
Typ práce: | Diploma thesis |
Vedoucí práce: | Máša, Petr |
Oponenti práce: | Rauch, Jan |
Jazyk práce: | English |
Abstrakt: | The data lakehouse is a new-generation distributed data analytics platform architecture that combines key benefits of data lakes and warehouses into a unified design, reconciling diverse data science and business intelligence workloads over a common data foundation. This thesis examines the novel data lakehouse architecture and a set of associated data preprocessing and data science technologies and demonstrates how data science projects can benefit from them. First, the author describes and analyzes the emerging lakehouse architectural pattern with a primary focus on data storage, integration, and preprocessing as an integral lifecycle stage for data and knowledge mining projects and methods such as machine learning. Second, the thesis describes modules of the Apache Spark ecosystem relevant for machine learning and streaming. Third, the author formulates a subset of challenges observed in current enterprise big data preprocessing and machine learning practice and verifies how integrating described technologies can lead to partially or fully answering such challenges and ultimately increase the business value gained from data science. This work presents a proof of concept implementation illustrating streaming data preprocessing, interactive machine learning feature engineering and modeling, and streaming predictions in the context of a simulated data science project, demonstrating the resolution of the defined data engineering challenges observed in the data science lifecycle, such as supporting data reproducibility and handling upserts, using distributed data lakehouse technologies in a cloud setting. |
Klíčová slova: | data lakehouse; data science; data engineering; big data; machine learning; Delta Lake; Apache Spark |
Název práce: | Analýza data lakehouse: Nejnovější evoluce v big data architekturách a její přínosy pro data science |
---|---|
Autor(ka) práce: | Holub, Ondřej |
Typ práce: | Diplomová práce |
Vedoucí práce: | Máša, Petr |
Oponenti práce: | Rauch, Jan |
Jazyk práce: | English |
Abstrakt: | Data lakehouse je novou generací architektur distribuovaných platforem pro datovou analýzu, která v unifikovaném modelu spojuje klíčové výhody platforem data lake a data warehouse a umožňuje provádět různorodé data science a business intelligence úlohy nad společnou datovou základnou. Tato práce zkoumá nově přicházející architekturu data lakehouse a sadu souvisejících technologií pro předzpracování dat a data science a ukazuje, jak z nich mohou profitovat data science projekty. Autor nejprve popisuje a analyzuje tento nový lakehouse architektonický model s primárním zaměřením na ukládání, integraci a předzpracování dat jako nedílnou fázi životního cyklu projektů v oblasti získávání znalostí z dat a metod jako je strojové učení. Zadruhé práce popisuje moduly ekosystému Apache Spark relevantní pro strojové učení a streaming. Zatřetí autor formuluje podmnožinu výzev pozorovaných v současné praxi big data předzpracování a strojového učení a ověřuje, jak může integrace popsaných technologií vést k částečnému či úplnému zodpovězení těchto výzev a v konečném důsledku ke zvýšení přínosu data science pro firmy. Tato práce představuje proof of concept implementaci ilustrující streamové předzpracování dat, interaktivní inženýrství atributů a tvorbu modelů strojového učení a streamové predikce v kontextu simulovaného data science projektu, která demonstruje řešení definovaných výzev datového inženýrství pozorovaných v životním cyklu data science projektů, jako je podpora pro reprodukovatelnost dat a upserty, pomocí distribuovaných data lakehouse technologií v cloudovém prostředí. |
Klíčová slova: | data lakehouse; data science; datové inženýrství; big data; strojové učení; Delta Lake; Apache Spark |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Znalostní a webové technologie |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 23. 3. 2022 |
---|---|
Datum podání práce: | 28. 4. 2022 |
Datum obhajoby: | 1. 6. 2022 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/75024/podrobnosti |