Návrh a implementace PoC pro řešení Data Lineage ve vybrané společnosti

Název práce: Návrh a implementace PoC pro řešení Data Lineage ve vybrané společnosti
Autor(ka) práce: Olšáková, Klára
Typ práce: Diplomová práce
Vedoucí práce: Stanovská, Iva
Oponenti práce: Maryška, Miloš
Jazyk práce: Česky
Abstrakt:
Tato diplomová práce se zabývá problematikou data lineage v kontextu praktického využití v prostředí firmy WOOD & Co. Rostoucí objem dat, automatizace datových pipeline a propojení různých systémů zvyšují potřebu systematicky sledovat původ, tok a transformace dat. V současném prostředí firmy je data lineage dohledávána převážně ručně, což je časově náročné, závislé na zkušenostech jednotlivých členů týmu. Cílem práce je definovat požadavky formy WOOD & Co. na nástroj pro data lineage, analyzovat dostupná řešení na trhu a ověřit jejich využitelnost v reálném prostředí prostřednictvím proof of concept řešení. Práce využívá kombinaci explorativní rešerše, frekvenční analýzy a vícekriteriálního srovnání nástrojů. V této analýze byly posouzeny komerční i open-source nástroje, přičemž open-source řešení nevyhověla klíčovým požadavkům, zejména v oblasti integrace s prostředím Azure Synapse Analytics. Pro praktické ověření byly vybrány nástroje Microsoft Purview a CEOS Metadata (Asysta), které reprezentují dva odlišné přístupy k řešení data lineage. Microsoft Purview nabízí širší pokrytí datových toků ekosystému Microsoft Azure, avšak neposkytuje dostatečný detail transformační logiky a sloupcových operací. Asysta naopak umožňuje detailnější analýzu transformací zejména v prostředí Microsoft Power BI, její využitelnost je však omezena absencí plného propojení s Microsoft Azure Synapse Analytics. Výsledky práce ukazují, že žádný z testovaných nástrojů samostatně nesplňuje všechny požadavky společnosti WOOD & Co. Kombinace obou přístupů se požadavkům přibližuje, avšak i nadále zůstávají omezení zejména v oblasti trasování transformačních kroků v prostředí Synapse. Přínosem práce je systematické vymezení požadavků na data lineage nástroj, srovnání dostupných řešení a praktické ověření jejich možností v konkrétním podnikovém prostředí.
Klíčová slova: upstream lineage; proof of concept; data governance; Microsoft Purview; Asysta; data lineage; downstream lineage; CEOS Metadata; Microsoft Power BI; Microsoft Azure Synapse Analytics
Název práce: Design and Implementation of a PoC for a Data Lineage Solution in a Selected Company
Autor(ka) práce: Olšáková, Klára
Typ práce: Diploma thesis
Vedoucí práce: Stanovská, Iva
Oponenti práce: Maryška, Miloš
Jazyk práce: Česky
Abstrakt:
This master’s thesis addresses the topic of data lineage in the context of its practical application within WOOD & Co. The growing volume of data, the automation of data pipelines, and the interconnection of heterogeneous systems increase the need to systematically trace the origin, flow, and transformations of data. In the company’s current environment, data lineage is predominantly reconstructed manually, which is time-consuming and dependent on the experience of individual team members. The aim of this thesis is to define WOOD & Co.’s requirements for a data lineage tool, analyze available market solutions, and verify their applicability in a real environment through a proof-of-concept implementation. The thesis applies a combination of exploratory research, frequency analysis, and multi-criteria comparison of tools. As part of this analysis, both commercial and open-source solutions were evaluated. The opensource tools did not meet key requirements, particularly with respect to integration with Azure Synapse Analytics. Microsoft Purview and CEOS Metadata (Asysta) were selected for practical evaluation, as they represent two distinct approaches to implementing data lineage. Microsoft Purview provides broader coverage of data flows within the Microsoft Azure ecosystem; however, it does not provide sufficient detail regarding transformation logic and column-level operations. By contrast, Asysta enables a more detailed analysis of transformations, particularly in the Microsoft Power BI environment, but its applicability is limited by the absence of full integration with Microsoft Azure Synapse Analytics. The results show that none of the tested tools independently satisfies all requirements defined by WOOD & Co. A combination of both approaches comes closer to meeting these requirements; however, limitations remain, especially in the tracing of transformation steps within the Synapse environment. The contribution of this thesis lies in the systematic specification of requirements for a data lineage tool, the comparison of available solutions, and the practical validation of their capabilities in a specific enterprise environment.
Klíčová slova: data lineage; downstream lineage; upstream lineage; proof of concept; Asysta; data governance; Microsoft Purview; CEOS Metadata; Microsoft Power BI; Microsoft Azure Synapse Analytics

Informace o studiu

Studijní program / obor: Data a analytika pro business
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 31. 10. 2024
Datum podání práce: 3. 5. 2026
Datum obhajoby: 5. 6. 2026
Identifikátor v systému InSIS: https://insis.vse.cz/zp/90184/podrobnosti

Soubory ke stažení

    Poslední aktualizace: