Componentization of Linked Data Transformations

Thesis title: Komponentizace transformací linked data
Author: Pilař, Štěpán
Thesis type: Diplomová práce
Supervisor: Mynarz, Jindřich
Opponents: Knap, Tomáš
Thesis language: Česky
Abstract:
Diplomová práce se zabývá problematikou transformací linked data a možností kom-ponentizace extract, transform, load procesu s důrazem na přepoužitelnost. Příklady komponent jsou demonstrovány v prostředí nástroje UnifiedViews. Po prozkoumání souvisejících oblastí výzkumu, především ETL v relačním světě a managementu kvali-ty linked data, jsou pomocí bottom-up přístupu rozebrány existující extrakce a trans-formace, v nichž jsou identifikovány příležitosti komponentizace, které jsou doplněny o další možné operace inspirované transformacemi relačních dat. Kromě uvedení potenciálních komponent jsou pro každou z nich diskutovány i možnosti a limitace využití samostatně i v kombinaci s jinými komponentami. Následuje rozbor možností implementace komponent a přehled klíčových otázek při volbě způsobu jejich reali-zace. Implementace vybraných komponent v souladu s navrženým postupem je po-psána v poslední části práce. Současně je jejich využití a omezení demonstrováno na praktických úlohách s daty z oblasti veřejných zakázek.
Keywords: linked data; transformace dat; deduplikace; geokódování; UnifiedViews
Thesis title: Componentization of Linked Data Transformations
Author: Pilař, Štěpán
Thesis type: Diploma thesis
Supervisor: Mynarz, Jindřich
Opponents: Knap, Tomáš
Thesis language: Česky
Abstract:
The diploma thesis is focused on transformation of linked data and opportunities for componentization of extract, transform, load process resulting in reusability of such components. UnifiedViews serves as a framework for demonstration of implementa-tion of selected components. Initial review of related fields of study, relational data oriented ETL and linked data quality management being most prominent, is followed by bottom-up analysis of existing extractors and transformations. Identified common transformations are supplemented by operations known from transformations of relational data. Options and limits of each component candidate are discussed as well as possible cooperation with other components. The next section discusses supported ways of implementation in the selected environment and provides a list of key questions for decision making process is provided. The last part describes implementation of selected components with respect to the approach suggested in the preceding section. Practical use as well as limitations of the implemented components are demonstrated on tasks transforming public contracts datasets.
Keywords: deduplication; geocoding; linked data; UnifiedViews; data transformation

Information about study

Study programme: Aplikovaná informatika/Kognitivní informatika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 16. 12. 2013
Date of submission: 1. 6. 2014
Date of defense: 10. 6. 2014
Identifier in the InSIS system: https://insis.vse.cz/zp/45913/podrobnosti

Files for download

    Last update: