Nástroj dbt (data build tool) a jeho využití při stavbě datových skladů
Author:
Novák, Matěj
Thesis type:
Diplomová práce
Supervisor:
Pour, Jan
Opponents:
-
Thesis language:
Česky
Abstract:
Diplomová práce je zaměřena na využití nástroje dbt (data build tool) při návrhu a implementaci moderních datových skladů. Tento nástroj slouží ke správě datových procesů, zajištění datové kvality, verzování kódu a tvorbě dokumentace. Cílem práce je na základě literární rešerše a praktické implementace ukázat, jak lze dbt efektivně využít při návrhu datového skladu a jaké techniky a přístupy mohou být využity pro podobné projekty. Práce je rozdělena na dvě části – teoretickou a praktickou. Teoretická část popisuje vlastnosti nástroje dbt, jeho strukturu a hlavní principy fungování. Dále se zaměřuje na modulární přístup a možnosti integrace s moderními cloudovými platformami, jako je Google BigQuery. Praktická část staví na poznatcích z teoretické části a aplikuje je na reálný projekt v prostředí zdravotnictví. V této části je navržen datový sklad s architekturou členěnou do vrstev L0 až L3, přičemž transformační procesy byly plně řízeny nástrojem dbt. Výstupem praktické části je návrh konkrétního přístupu k řešení datových projektů s využitím dbt, který zahrnuje šablony a best practices, jako například použití maker pro opakující se transformace nebo zavedení historizačních přístupů pomocí snapshotů. Práce demonstruje, že dbt dokáže modernizovat datovou architekturu a zefektivnit procesy spojené s datovými sklady, přičemž hlavní důraz je kladen na transparentnost, dokumentaci a validaci dat.
The dbt (data build tool) and its use when building data warehouses
Author:
Novák, Matěj
Thesis type:
Diploma thesis
Supervisor:
Pour, Jan
Opponents:
-
Thesis language:
Česky
Abstract:
The thesis focuses on the use of the dbt (data build tool) for designing and implementing modern data warehouses. This tool facilitates the management of data processes, ensures data quality, supports code versioning, and enables documentation creation. The aim of the thesis is to demonstrate, based on a literature review and practical implementation, how dbt can be effectively used in designing a data warehouse and which techniques and approaches can serve as inspiration for similar projects. The thesis is divided into two parts – theoretical and practical. The theoretical part describes the key features of the dbt tool, its structure, and the main principles of its operation. It also highlights the modular approach and the possibilities of integration with modern cloud platforms such as Google BigQuery. The practical part builds on the findings of the theoretical section and applies them to a real-world project in the healthcare sector. In this part, a data warehouse is designed with an architecture divided into layers L0 to L3, with transformation processes fully managed by dbt. The output of the practical part is a proposed approach to solving data projects using dbt, which includes templates and best practices, such as the use of macros for recurring transformations or the implementation of historical approaches through snapshots. The thesis demonstrates that dbt can modernize data architecture and streamline processes associated with data warehouses, with a strong emphasis on transparency, documentation, and data validation.
Keywords:
dbt Core; GCP; Google Cloud Platform; dbt; data warehouse; data transformation
Information about study
Study programme:
Data a analytika pro business
Type of study programme:
Magisterský studijní program
Assigned degree:
Ing.
Institutions assigning academic degree:
Vysoká škola ekonomická v Praze
Faculty:
Faculty of Informatics and Statistics
Department:
Department of Information Technologies
Information on submission and defense
Date of assignment:
19. 6. 2024
Date of submission:
23. 11. 2024
Date of defense:
2024
Files for download
The files will be available after the defense of the thesis.