Experiment dolování asociačních pravidel nad propojenými daty veřejné správy

Název práce: Experiment with rule mining from linked government data
Autor(ka) práce: Novák, Petr
Typ práce: Diploma thesis
Vedoucí práce: Svátek, Vojtěch
Oponenti práce: Kliegr, Tomáš
Jazyk práce: English
Abstrakt:
Some public-sector organizations and governmental bodies are publishing their data as LOD data cubes. The interlinked nature of LOD encourages the published data cubes to be enriched with additional information available from other sources published as RDF as well. This new information in the form of binary relationships contained in these knowledge graphs can be used when mining association rules over the aggregated data, which can lead to finding relationships that cannot be found in the cubes themselves. Mining of association rules over RDF data and at the same time in their aggregated form is a not yet explored area and achieving the generation of meaningful interpretable rules that bring new knowledge is not yet a solved problem. This work explores the possibilities of enriching the RDF data cube structured by the Data Cube vocabulary with the data from general knowledge graphs and of mining such data by the AMIE algorithm or its derivatives. The findings are demonstrated in a performed experiment of mining association rules with the RDFRules framework over the data sets of the Czech Social Security Administration, Czech statistical office, Wikidata, and YAGO.
Klíčová slova: Data Mining; OLAP; AMIE; Linked Data; RDF; Association Rules; RDFRules
Název práce: Experiment dolování asociačních pravidel nad propojenými daty veřejné správy
Autor(ka) práce: Novák, Petr
Typ práce: Diplomová práce
Vedoucí práce: Svátek, Vojtěch
Oponenti práce: Kliegr, Tomáš
Jazyk práce: English
Abstrakt:
Některé organizace veřejného sektoru a vládní orgány zveřejňují svá data jako LOD datové kostky. Vzájemně propojená povaha LOD vybízí k tomu, aby byly tyto datové kostky obohaceny o další informace dostupné z jiných zdrojů publikovaných také jako RDF. Tyto nové informace ve formě binárních vztahů obsažené v těchto znalostních grafech lze použít při těžbě asociačních pravidel nad těmito kostkami, což může vést k nalezení vztahů, které nelze najít v kostkách samotných. Těžba asociačních pravidel nad daty RDF a zároveň v jejich agregované podobě je dosud neprozkoumanou oblastí a nalezení smysluplných interpretovatelných pravidel, která přinášejí nové poznatky, není dosud vyřešeným problémem. Tato práce zkoumá možnosti obohacení RDF datové kostky strukturované slovníkem Data Cube Vocabulary o data ze znalostních grafů a těžby těchto dat pomocí algoritmu AMIE a jeho jiných variant. Zjištění jsou demonstrována na provedeném experimentu těžby asociačních pravidel s frameworkem RDFRules na datasetech České správy sociálního zabezpečení, Českého statistického úřadu, Wikidata a YAGO.
Klíčová slova: Data mining; OLAP; RDFRules; AMIE; Asociační pravidla; Propojená data; RDF

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Znalostní a webové technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 30. 11. 2020
Datum podání práce: 24. 6. 2021
Datum obhajoby: 14. 9. 2021
Identifikátor v systému InSIS: https://insis.vse.cz/zp/75365/podrobnosti

Soubory ke stažení

    Poslední aktualizace: