Schema discovery in Document-Oriented databases

Thesis title: Schema discovery in Document-Oriented databases
Author: Barchánková, Adéla
Thesis type: Diploma thesis
Supervisor: Feuerlicht, Jiří
Opponents: Chlapek, Dušan
Thesis language: English
Abstract:
In the software engineering community, NoSQL databases are gaining more and more popularity each year. One of their most appealing features is flexibility, which is characterised by the absence of an explicitly declared data schema. On one hand, this provides easier storage for high volumes of heterogeneous data. On the other, the lack of any schema definition brings additional difficulties to several software development and maintenance processes. Thus, in past years, there have been introduced various approaches for discovering and defining the implicit schema behind the data stored in NoSQL databases. However, none of them has become a recognized standard and many are still lacking in various ways. In the thesis, we present a systematic mapping study of currently available approaches for schema discovery in JSON-based document-oriented NoSQL databases. We map the current state-of-the-art in the field, cluster the separate features and capabilities of the existing approaches and finally explain the leading motives and potential gaps in current research. The work aims to provide a secondary study, which can be used as a comprehensive knowledge base for further research or just interest in the field.
Keywords: schema discovery; NoSQL databases; JSON; document-oriented
Thesis title: Odhalování schémat v dokumentově orientovaných databázích
Author: Barchánková, Adéla
Thesis type: Diplomová práce
Supervisor: Feuerlicht, Jiří
Opponents: Chlapek, Dušan
Thesis language: English
Abstract:
Popularita NoSQL databází v softwarovém inženýrství narůstá každým rokem. Mezi jejich nejvýraznější vlastnosti patří mimo jiné flexibilita, která se projevuje zejména absencí předem určeného datového schématu. To na jednu stranu umožňuje snáze ukládat a zpracovávat velké objemy heterogenních dat, na druhou stranu však absolutní absence jakékoli definice schématu často způsobuje problémy v různých procesech vývoje a podpory softwaru. I proto byly v posledních letech představeny různé přístupy pro odvození datového schématu implicitně definovaného daty uloženými v NoSQL databázích, žádný z nich však nebyl standardizován či všeobecně uznán a u většiny stále můžeme najít řadu nedostatků. Tato diplomová práce představuje systematickou mapovací studii aktuálně existujících postupů pro odvozování schémat z JSON dat uložených v dokumentově orientovaných NoSQL databázích. Mapuje aktuální stav poznání v oboru, popisuje vlastnosti a schopnosti jednotlivých postupů a následně vysvětluje trendy a případné mezery ve výzkumu. Cílem práce je vytvořit kvalitní sekundární studii, která poslouží jako srozumitelný souhrn informací o daném tématu a vytvoří tak základ pro případný další výzkum.
Keywords: NoSQL databáze; dokumentově orientované; odhalování schémat; JSON

Information about study

Study programme: Informační systémy a technologie/Vývoj informačních systémů
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 2. 11. 2021
Date of submission: 30. 6. 2022
Date of defense: 7. 10. 2022
Identifier in the InSIS system: https://insis.vse.cz/zp/78624/podrobnosti

Files for download

    Last update: