Comparison of approaches to storing linked open data

Thesis title: Porovnání přístupů k ukládání otevřených propojených dat
Author: Hanuš, Jiří
Thesis type: Diplomová práce
Supervisor: Chlapek, Dušan
Opponents: Kučera, Jan
Thesis language: Česky
Abstract:
Tato diplomová práce se zabývá zmapováním současných možností a způsobů ukládání otevřených dat. Zaměřuje se na nástroje a databázové systémy pro ukládání otevřených propojených dat a jejich výběr pro následnou analýzu a porovnání. Práce se potom soustředí na vlastní porovnání vybraných nástrojů na zvoleném příkladu. Práce představí základní pojmy a koncepty týkající se otevřených propojených dat. Poté jsou zanalyzovány různé přístupy k ukládání dat a formáty ukládání dat, ať už souborové nebo databázové. V další části se práce zaměřuje na formát RDF a databázové systémy. Je představeno deset triplestore databázových systémů, což jsou systémy určené pro ukládání dat ve formátu RDF. Z těchto jsou tři vybrány na detailnější analýzu a v detailní analýze jsou srovnány jak mezi sebou, tak s relačním databázovým systémem. Těžištěm detailní analýzy je zejména v rychlostním porovnání. Práce představuje existující rychlostní ben-chmarky triplestore systémů a poté také vlastní benchmark jako sadu databázových dotazů, na kterých je provedeno vlastní výkonnostní porovnání. Porovnány jsou nástroje Apache Jena TDB/Fuseki, OpenLink Virtuoso, Oracle Spatial and Graph a Microsoft SQL Server. Přínosem této práce je zejména zmapování různých způsobů ukládání otevřených propoje-ných dat v ucelené formě.
Keywords: triplestore databáze; RDF; SPARQL; otevřená data
Thesis title: Comparison of approaches to storing linked open data
Author: Hanuš, Jiří
Thesis type: Diploma thesis
Supervisor: Chlapek, Dušan
Opponents: Kučera, Jan
Thesis language: Česky
Abstract:
The aim of this diploma thesis is a detail description of current possibilities and ways of storing open data. It focuses on tools and database systems used for storing linked open data as well as on the selection of such systems for subsequent analysis and comparison. The practical part of the thesis then focuses on the comparison of selected systems based on a selected use case. This thesis introduces the fundamental terms and concepts concerning linked open data. Besides that, various approaches and formats for storing linked open data (namely file ori-ented approaches and database approaches) are analyzed. . The thesis also focuses on the RDF format and database systems. Ten triplestore database solutions (solutions for storing data in the RDF format) are introduced and described briefly. Out of these, three are cho-sen for a detailed analysis by which they are compared with one another and with a rela-tional database system. The core of the detail analysis lies in performance benchmarks. Ex-isting performance oriented benchmarks of triplestore systems are described and analyzed. In addition to that, the thesis introduces a newly developed benchmark as a collection of database queries. The benchmark is then used for the performance testing. The following systems have been tested: Apache Jena TDB/Fuseki, OpenLink Virtuoso, Oracle Spatial and Graph a Microsoft SQL Server. The main contribution of this thesis consists in a comprehensive presentation of current possibilities of storing linked open data.
Keywords: triplestore database; RDF; SPARQL; open data

Information about study

Study programme: Aplikovaná informatika/Podniková informatika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 7. 10. 2015
Date of submission: 4. 12. 2016
Date of defense: 30. 1. 2017
Identifier in the InSIS system: https://insis.vse.cz/zp/54556/podrobnosti

Files for download

    Last update: