Nástroj dbt (data build tool) a jeho využití při stavbě datových skladů
Autor(ka) práce:
Novák, Matěj
Typ práce:
Diplomová práce
Vedoucí práce:
Pour, Jan
Oponenti práce:
-
Jazyk práce:
Česky
Abstrakt:
Diplomová práce je zaměřena na využití nástroje dbt (data build tool) při návrhu a implementaci moderních datových skladů. Tento nástroj slouží ke správě datových procesů, zajištění datové kvality, verzování kódu a tvorbě dokumentace. Cílem práce je na základě literární rešerše a praktické implementace ukázat, jak lze dbt efektivně využít při návrhu datového skladu a jaké techniky a přístupy mohou být využity pro podobné projekty. Práce je rozdělena na dvě části – teoretickou a praktickou. Teoretická část popisuje vlastnosti nástroje dbt, jeho strukturu a hlavní principy fungování. Dále se zaměřuje na modulární přístup a možnosti integrace s moderními cloudovými platformami, jako je Google BigQuery. Praktická část staví na poznatcích z teoretické části a aplikuje je na reálný projekt v prostředí zdravotnictví. V této části je navržen datový sklad s architekturou členěnou do vrstev L0 až L3, přičemž transformační procesy byly plně řízeny nástrojem dbt. Výstupem praktické části je návrh konkrétního přístupu k řešení datových projektů s využitím dbt, který zahrnuje šablony a best practices, jako například použití maker pro opakující se transformace nebo zavedení historizačních přístupů pomocí snapshotů. Práce demonstruje, že dbt dokáže modernizovat datovou architekturu a zefektivnit procesy spojené s datovými sklady, přičemž hlavní důraz je kladen na transparentnost, dokumentaci a validaci dat.
The dbt (data build tool) and its use when building data warehouses
Autor(ka) práce:
Novák, Matěj
Typ práce:
Diploma thesis
Vedoucí práce:
Pour, Jan
Oponenti práce:
-
Jazyk práce:
Česky
Abstrakt:
The thesis focuses on the use of the dbt (data build tool) for designing and implementing modern data warehouses. This tool facilitates the management of data processes, ensures data quality, supports code versioning, and enables documentation creation. The aim of the thesis is to demonstrate, based on a literature review and practical implementation, how dbt can be effectively used in designing a data warehouse and which techniques and approaches can serve as inspiration for similar projects. The thesis is divided into two parts – theoretical and practical. The theoretical part describes the key features of the dbt tool, its structure, and the main principles of its operation. It also highlights the modular approach and the possibilities of integration with modern cloud platforms such as Google BigQuery. The practical part builds on the findings of the theoretical section and applies them to a real-world project in the healthcare sector. In this part, a data warehouse is designed with an architecture divided into layers L0 to L3, with transformation processes fully managed by dbt. The output of the practical part is a proposed approach to solving data projects using dbt, which includes templates and best practices, such as the use of macros for recurring transformations or the implementation of historical approaches through snapshots. The thesis demonstrates that dbt can modernize data architecture and streamline processes associated with data warehouses, with a strong emphasis on transparency, documentation, and data validation.
Klíčová slova:
dbt Core; GCP; Google Cloud Platform; dbt; data warehouse; data transformation