Experiment with rule mining from linked government data
Thesis title: | Experiment with rule mining from linked government data |
---|---|
Author: | Novák, Petr |
Thesis type: | Diploma thesis |
Supervisor: | Svátek, Vojtěch |
Opponents: | Kliegr, Tomáš |
Thesis language: | English |
Abstract: | Some public-sector organizations and governmental bodies are publishing their data as LOD data cubes. The interlinked nature of LOD encourages the published data cubes to be enriched with additional information available from other sources published as RDF as well. This new information in the form of binary relationships contained in these knowledge graphs can be used when mining association rules over the aggregated data, which can lead to finding relationships that cannot be found in the cubes themselves. Mining of association rules over RDF data and at the same time in their aggregated form is a not yet explored area and achieving the generation of meaningful interpretable rules that bring new knowledge is not yet a solved problem. This work explores the possibilities of enriching the RDF data cube structured by the Data Cube vocabulary with the data from general knowledge graphs and of mining such data by the AMIE algorithm or its derivatives. The findings are demonstrated in a performed experiment of mining association rules with the RDFRules framework over the data sets of the Czech Social Security Administration, Czech statistical office, Wikidata, and YAGO. |
Keywords: | Data Mining; OLAP; AMIE; Linked Data; RDF; Association Rules; RDFRules |
Thesis title: | Experiment dolování asociačních pravidel nad propojenými daty veřejné správy |
---|---|
Author: | Novák, Petr |
Thesis type: | Diplomová práce |
Supervisor: | Svátek, Vojtěch |
Opponents: | Kliegr, Tomáš |
Thesis language: | English |
Abstract: | Některé organizace veřejného sektoru a vládní orgány zveřejňují svá data jako LOD datové kostky. Vzájemně propojená povaha LOD vybízí k tomu, aby byly tyto datové kostky obohaceny o další informace dostupné z jiných zdrojů publikovaných také jako RDF. Tyto nové informace ve formě binárních vztahů obsažené v těchto znalostních grafech lze použít při těžbě asociačních pravidel nad těmito kostkami, což může vést k nalezení vztahů, které nelze najít v kostkách samotných. Těžba asociačních pravidel nad daty RDF a zároveň v jejich agregované podobě je dosud neprozkoumanou oblastí a nalezení smysluplných interpretovatelných pravidel, která přinášejí nové poznatky, není dosud vyřešeným problémem. Tato práce zkoumá možnosti obohacení RDF datové kostky strukturované slovníkem Data Cube Vocabulary o data ze znalostních grafů a těžby těchto dat pomocí algoritmu AMIE a jeho jiných variant. Zjištění jsou demonstrována na provedeném experimentu těžby asociačních pravidel s frameworkem RDFRules na datasetech České správy sociálního zabezpečení, Českého statistického úřadu, Wikidata a YAGO. |
Keywords: | Data mining; OLAP; RDFRules; AMIE; Asociační pravidla; Propojená data; RDF |
Information about study
Study programme: | Aplikovaná informatika/Znalostní a webové technologie |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: | 30. 11. 2020 |
---|---|
Date of submission: | 24. 6. 2021 |
Date of defense: | 14. 9. 2021 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/75365/podrobnosti |