Design and implementation of a web application for automated deployment of selected data engineering tools
Autor(ka) práce:
Tsakunov, Ilya
Typ práce:
Diploma thesis
Vedoucí práce:
Novotný, Ota
Oponenti práce:
Vencovský, Filip
Jazyk práce:
English
Abstrakt:
This diploma thesis addresses the challenge faced by smaller data engineering teams, where significant time is often dedicated towards infrastructure setup rather than pipeline development. The proposed solution is a web application that aims to simplify the deployment of selected data engineering tools on Kubernetes infrastructure running on cost-effective cloud providers such as Hetzner. The application's backend is developed using Python with the FastAPI framework, while its frontend is built with TypeScript and React. The application is evaluated through two distinct approaches. First, a practical demonstration project was prepared that involves a web scraping pipeline to extract real estate data from the two largest Czech portals for later visualization. Second, qualitative feedback on the application's usability and utility was gathered from the potential users.
Klíčová slova:
kubernetes; data engineering; grafana; spark; airflow; hetzner
Název práce:
Návrh a implementace webové aplikace pro automatizované nasazení vybraných nástrojů datového inženýrství
Autor(ka) práce:
Tsakunov, Ilya
Typ práce:
Diplomová práce
Vedoucí práce:
Novotný, Ota
Oponenti práce:
Vencovský, Filip
Jazyk práce:
English
Abstrakt:
Tato diplomová práce se zabývá problémem menších týmů datových inženýrů, kde se často značné množství času věnuje spíše nastavování infrastruktury než samotnému vývoji datových pipeline. Navrženým řešením je webová aplikace, jejímž cílem je zjednodušit nasazení vybraných nástrojů pro datové inženýrství na Kubernetes infrastrukturu běžící na cenově výhodných cloudových poskytovatelích, jako je Hetzner. Backend aplikace je vyvinut v jazyce Python s frameworkem FastAPI, zatímco frontend je postaven pomocí TypeScriptu a Reactu. Aplikace je vyhodnocena dvěma různými způsoby. Zaprvé byl připraven praktický demonstrační projekt, který zahrnuje web scraping pipeline pro získávání dat o nemovitostech ze dvou největších českých portálů pro pozdější vizualizace. Zadruhé byla shromážděna kvalitativní zpětná vazba od potenciálních uživatelů ohledně použitelnosti a užitečnosti aplikace.
Klíčová slova:
kubernetes; data engineering; airflow; grafana; spark; hetzner