This master's thesis presents the design and implementation of a document database analytics pipeline using a batch Extract–Transform–Load (ETL) materialisation approach deployed on Amazon Web Services. The thesis identifies core challenges arising when document collections with schema variability are exposed to SQL analytical engines and business intelligence tools, and addresses them through a columnar Parquet materialisation architecture built on AWS Glue, Amazon S3, and Amazon Athena. The practical component implements two different scenarios. Scenario A processes a synthetic e-commerce dataset containing deliberate schema inconsistencies variant field names, mixed data types, missing nested objects, and structural array variants - demonstrating the ETL complexity required to harmonise such data. Scenario B demonstrates an analytics-oriented MongoDB schema that eliminates these inconsistencies at the source, enabling a significantly simpler transformation pipeline. Both scenarios are deployed end-to-end on AWS using Glue (PySpark), Amazon S3, Glue Data Catalog, and Amazon Athena. The thesis compares the two scenarios quantitatively across ETL script complexity, data quality outcomes, and analytical completeness, and concludes with developer guidelines for MongoDB schema design.
Klíčová slova:
data quality; MongoDB; AWS Glue; NoSQL; analytical data warehouse; schema-on-read; Apache Parquet; ETL
Název práce:
Design and implementation of Document Databases
Autor(ka) práce:
Pitko, Dariia
Typ práce:
Diplomová práce
Vedoucí práce:
Feuerlicht, Jiří
Oponenti práce:
Bruckner, Tomáš
Jazyk práce:
English
Abstrakt:
Tato diplomová práce se zabývá návrhem a implementací analytické pipeline pro dokumentové databáze prostřednictvím dávkového ETL procesu na platformě AWS. Práce identifikuje klíčové problémy, které vznikají při analytickém zpracování dat uložených v dokumentových kolekcích se schematickou nekonzistencí, a navrhuje praktické řešení v podobě přístupu materialisace dat do sloupcového formátu Parquet. Praktická část implementuje dva scénáře: Scénář A pracuje s datovou sadou obsahující záměrné schematické nekonzistence (variantní názvy polí, odlišné datové typy, neúplné vnořené objekty), zatímco Scénář B demonstruje analyticky orientovaný přístup s konzistentním schématem. Transformační pipeline využívá AWS Glue (PySpark), Amazon S3, AWS Glue Data Catalog a Amazon Athena. Výsledky obou scénářů jsou porovnány z hlediska složitosti ETL kódu, výsledků datové kvality a analytické úplnosti. Závěry práce formulují doporučení pro návrh MongoDB schématu s ohledem na analytické využití dat a diskutují dopady schematické flexibility na celkovou nákladnost a udržitelnost datových pipeline.