Experiment dolování asociačních pravidel nad propojenými daty veřejné správy
Název práce: | Experiment with rule mining from linked government data |
---|---|
Autor(ka) práce: | Novák, Petr |
Typ práce: | Diploma thesis |
Vedoucí práce: | Svátek, Vojtěch |
Oponenti práce: | Kliegr, Tomáš |
Jazyk práce: | English |
Abstrakt: | Some public-sector organizations and governmental bodies are publishing their data as LOD data cubes. The interlinked nature of LOD encourages the published data cubes to be enriched with additional information available from other sources published as RDF as well. This new information in the form of binary relationships contained in these knowledge graphs can be used when mining association rules over the aggregated data, which can lead to finding relationships that cannot be found in the cubes themselves. Mining of association rules over RDF data and at the same time in their aggregated form is a not yet explored area and achieving the generation of meaningful interpretable rules that bring new knowledge is not yet a solved problem. This work explores the possibilities of enriching the RDF data cube structured by the Data Cube vocabulary with the data from general knowledge graphs and of mining such data by the AMIE algorithm or its derivatives. The findings are demonstrated in a performed experiment of mining association rules with the RDFRules framework over the data sets of the Czech Social Security Administration, Czech statistical office, Wikidata, and YAGO. |
Klíčová slova: | Data Mining; OLAP; AMIE; Linked Data; RDF; Association Rules; RDFRules |
Název práce: | Experiment dolování asociačních pravidel nad propojenými daty veřejné správy |
---|---|
Autor(ka) práce: | Novák, Petr |
Typ práce: | Diplomová práce |
Vedoucí práce: | Svátek, Vojtěch |
Oponenti práce: | Kliegr, Tomáš |
Jazyk práce: | English |
Abstrakt: | Některé organizace veřejného sektoru a vládní orgány zveřejňují svá data jako LOD datové kostky. Vzájemně propojená povaha LOD vybízí k tomu, aby byly tyto datové kostky obohaceny o další informace dostupné z jiných zdrojů publikovaných také jako RDF. Tyto nové informace ve formě binárních vztahů obsažené v těchto znalostních grafech lze použít při těžbě asociačních pravidel nad těmito kostkami, což může vést k nalezení vztahů, které nelze najít v kostkách samotných. Těžba asociačních pravidel nad daty RDF a zároveň v jejich agregované podobě je dosud neprozkoumanou oblastí a nalezení smysluplných interpretovatelných pravidel, která přinášejí nové poznatky, není dosud vyřešeným problémem. Tato práce zkoumá možnosti obohacení RDF datové kostky strukturované slovníkem Data Cube Vocabulary o data ze znalostních grafů a těžby těchto dat pomocí algoritmu AMIE a jeho jiných variant. Zjištění jsou demonstrována na provedeném experimentu těžby asociačních pravidel s frameworkem RDFRules na datasetech České správy sociálního zabezpečení, Českého statistického úřadu, Wikidata a YAGO. |
Klíčová slova: | Data mining; OLAP; RDFRules; AMIE; Asociační pravidla; Propojená data; RDF |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Znalostní a webové technologie |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 30. 11. 2020 |
---|---|
Datum podání práce: | 24. 6. 2021 |
Datum obhajoby: | 14. 9. 2021 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/75365/podrobnosti |