Design and implementation of a web application for automated deployment of selected data engineering tools

Thesis title: Design and implementation of a web application for automated deployment of selected data engineering tools
Author: Tsakunov, Ilya
Thesis type: Diploma thesis
Supervisor: Novotný, Ota
Opponents: Vencovský, Filip
Thesis language: English
Abstract:
This diploma thesis addresses the challenge faced by smaller data engineering teams, where significant time is often dedicated towards infrastructure setup rather than pipeline development. The proposed solution is a web application that aims to simplify the deployment of selected data engineering tools on Kubernetes infrastructure running on cost-effective cloud providers such as Hetzner. The application's backend is developed using Python with the FastAPI framework, while its frontend is built with TypeScript and React. The application is evaluated through two distinct approaches. First, a practical demonstration project was prepared that involves a web scraping pipeline to extract real estate data from the two largest Czech portals for later visualization. Second, qualitative feedback on the application's usability and utility was gathered from the potential users.
Keywords: kubernetes; data engineering; grafana; spark; airflow; hetzner
Thesis title: Návrh a implementace webové aplikace pro automatizované nasazení vybraných nástrojů datového inženýrství
Author: Tsakunov, Ilya
Thesis type: Diplomová práce
Supervisor: Novotný, Ota
Opponents: Vencovský, Filip
Thesis language: English
Abstract:
Tato diplomová práce se zabývá problémem menších týmů datových inženýrů, kde se často značné množství času věnuje spíše nastavování infrastruktury než samotnému vývoji datových pipeline. Navrženým řešením je webová aplikace, jejímž cílem je zjednodušit nasazení vybraných nástrojů pro datové inženýrství na Kubernetes infrastrukturu běžící na cenově výhodných cloudových poskytovatelích, jako je Hetzner. Backend aplikace je vyvinut v jazyce Python s frameworkem FastAPI, zatímco frontend je postaven pomocí TypeScriptu a Reactu. Aplikace je vyhodnocena dvěma různými způsoby. Zaprvé byl připraven praktický demonstrační projekt, který zahrnuje web scraping pipeline pro získávání dat o nemovitostech ze dvou největších českých portálů pro pozdější vizualizace. Zadruhé byla shromážděna kvalitativní zpětná vazba od potenciálních uživatelů ohledně použitelnosti a užitečnosti aplikace.
Keywords: kubernetes; data engineering; airflow; grafana; spark; hetzner

Information about study

Study programme: Data a analytika pro business
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 15. 12. 2024
Date of submission: 26. 6. 2025
Date of defense: 2025

Files for download

The files will be available after the defense of the thesis.

    Last update: