Design and implementation of Document Databases

English
Česky

Název práce:	Design and Implementation of a Document Database
Autor(ka) práce:	Pitko, Dariia
Typ práce:	Diploma thesis
Vedoucí práce:	Feuerlicht, Jiří
Oponenti práce:	Bruckner, Tomáš
Jazyk práce:	English
Abstrakt:	This master's thesis presents the design and implementation of a document database analytics pipeline using a batch Extract–Transform–Load (ETL) materialisation approach deployed on Amazon Web Services. The thesis identifies core challenges arising when document collections with schema variability are exposed to SQL analytical engines and business intelligence tools, and addresses them through a columnar Parquet materialisation architecture built on AWS Glue, Amazon S3, and Amazon Athena. The practical component implements two different scenarios. Scenario A processes a synthetic e-commerce dataset containing deliberate schema inconsistencies variant field names, mixed data types, missing nested objects, and structural array variants - demonstrating the ETL complexity required to harmonise such data. Scenario B demonstrates an analytics-oriented MongoDB schema that eliminates these inconsistencies at the source, enabling a significantly simpler transformation pipeline. Both scenarios are deployed end-to-end on AWS using Glue (PySpark), Amazon S3, Glue Data Catalog, and Amazon Athena. The thesis compares the two scenarios quantitatively across ETL script complexity, data quality outcomes, and analytical completeness, and concludes with developer guidelines for MongoDB schema design.
Klíčová slova:	data quality; MongoDB; AWS Glue; NoSQL; analytical data warehouse; schema-on-read; Apache Parquet; ETL

Název práce:	Design and implementation of Document Databases
Autor(ka) práce:	Pitko, Dariia
Typ práce:	Diplomová práce
Vedoucí práce:	Feuerlicht, Jiří
Oponenti práce:	Bruckner, Tomáš
Jazyk práce:	English
Abstrakt:	Tato diplomová práce se zabývá návrhem a implementací analytické pipeline pro dokumentové databáze prostřednictvím dávkového ETL procesu na platformě AWS. Práce identifikuje klíčové problémy, které vznikají při analytickém zpracování dat uložených v dokumentových kolekcích se schematickou nekonzistencí, a navrhuje praktické řešení v podobě přístupu materialisace dat do sloupcového formátu Parquet. Praktická část implementuje dva scénáře: Scénář A pracuje s datovou sadou obsahující záměrné schematické nekonzistence (variantní názvy polí, odlišné datové typy, neúplné vnořené objekty), zatímco Scénář B demonstruje analyticky orientovaný přístup s konzistentním schématem. Transformační pipeline využívá AWS Glue (PySpark), Amazon S3, AWS Glue Data Catalog a Amazon Athena. Výsledky obou scénářů jsou porovnány z hlediska složitosti ETL kódu, výsledků datové kvality a analytické úplnosti. Závěry práce formulují doporučení pro návrh MongoDB schématu s ohledem na analytické využití dat a diskutují dopady schematické flexibility na celkovou nákladnost a udržitelnost datových pipeline.
Klíčová slova:	MongoDB; ETL; Apache Parquet; AWS Glue; datová kvalita; analytické datové sklady; NoSQL; schéma-on-read

Informace o studiu

Studijní program / obor:	Informační management
Typ studijního programu:	Magisterský studijní program
Přidělovaná hodnost:	Ing.
Instituce přidělující hodnost:	Vysoká škola ekonomická v Praze
Fakulta:	Fakulta informatiky a statistiky
Katedra:	Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce:	12. 10. 2025
Datum podání práce:	8. 5. 2026
Datum obhajoby:	2026

Soubory ke stažení

Soubory budou k dispozici až po obhajobě práce.