Rule mining over linked data

Thesis title: Rule mining over linked data
Author: Zeman, Václav
Thesis type: Dissertation thesis
Supervisor: Kliegr, Tomáš
Opponents: Popelínský, Lubomír; Železný, Filip; Papotti, Paolo
Thesis language: English
Abstract:
Rule learning is one way for knowledge discovery from databases. With the growing amount of machine-readable and linked data published on the web, conventional rule mining algorithms needed to be adapted to the properties of the knowledge graphs into which linked data are grouped. Knowledge graphs can contain millions of statements, describe different entities in different contexts, have a high degree of interconnectedness, are considered incomplete, and are therefore open to further dissemination. One of the algorithms capable of efficiently and quickly mining rules from knowledge graphs is AMIE. This algorithm combines various techniques from the field of inductive logic programming and association rule mining. This thesis presents several algorithmic extensions to AMIE, which make it faster and more robust. All proposed approaches have been implemented and encapsulated in a single rule mining system called RDFRules, which can handle many knowledge graphs at once, merge them and analyze input data, mine rules according to the AMIE approach, process output rules, and use them for predictive or descriptive purposes. The performed evaluations show that the proposed improvements of the AMIE algorithm reduce the mining time by up to several orders of magnitude. Furthermore, it has been shown that the newly proposed data pre-processing and rules post-processing methods can discover additional knowledge and provide a better predictive ability of the assembled models than in the case of other common approaches.
Keywords: rule learning; data mining; knowledge graphs; linked data
Thesis title: Dolování pravidel nad propojenými daty
Author: Zeman, Václav
Thesis type: Disertační práce
Supervisor: Kliegr, Tomáš
Opponents: Popelínský, Lubomír; Železný, Filip; Papotti, Paolo
Thesis language: English
Abstract:
Učení pravidel je jeden ze způsobů získávání znalostí z databází. S rostoucím množstvím strojově čitelných a propojených dat publikovaných na webu vznikají nové možnosti dolování dat, a to přímo ze znalostních grafů, do kterých jsou propojená data sdružována. Pro učení pravidel z propojených dat však nelze běžně použít konvenční přístupy s ohledem na vlastnosti znalostních grafů. Znalostní grafy můžou obsahovat milióny výroků, popisují různé entity v různých kontextech, mají vysokou míru propojenosti, jsou považovány za neúplné a tedy jsou otevřeny pro další rozšiřování. Jedním z algoritmů schopných efektivně a rychle dolovat pravidla ze znalostních grafů je AMIE. Tento algoritmus kombinuje techniky z oboru induktivního logického programování a dolování asociačních pravidel. Tato práce je primárně zaměřena na výkonnostní vylepšení AMIE algoritmu a na vývoj nových přístupů rozšiřující algoritmus o metody předzpracování dat a zpracování získaných pravidel, které poskytují komplexnější pokrytí procesu dolování propojených dat oproti původní AMIE implementaci. Na základě navržených přístupů byl implementován nástroj s názvem RDFRules schopný pojmout mnoho znalostních grafů, propojit je a analyzovat vstupní data, dolovat pravidla dle AMIE přístupu, zpracovat výstupní pravidla a použít je pro prediktivní či deskriptivní účely. Provedené evaluace ukazují, že navržená vylepšení AMIE algoritmu snižují čas dolování až o několik řádů. Dále bylo ukázáno, že na základě nově navržených metod předzpracování dat a zpracování pravidel bylo možné odhalit další znalosti a poskytnout lepší prediktivní schopnost sestavených modelů než v případě jiných běžných přístupů.
Keywords: znalostní grafy; dolování dat; propojená data; učení pravidel

Information about study

Study programme: Aplikovaná informatika/Aplikovaná informatika
Type of study programme: Doktorský studijní program
Assigned degree: Ph.D.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 14. 8. 2015
Date of submission: 24. 2. 2023
Date of defense: 25. 5. 2023
Identifier in the InSIS system: https://insis.vse.cz/zp/53767/podrobnosti

Files for download

    Last update: