Dolování pravidel nad propojenými daty

Název práce: Rule mining over linked data
Autor(ka) práce: Zeman, Václav
Typ práce: Dissertation thesis
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Popelínský, Lubomír; Železný, Filip; Papotti, Paolo
Jazyk práce: English
Abstrakt:
Rule learning is one way for knowledge discovery from databases. With the growing amount of machine-readable and linked data published on the web, conventional rule mining algorithms needed to be adapted to the properties of the knowledge graphs into which linked data are grouped. Knowledge graphs can contain millions of statements, describe different entities in different contexts, have a high degree of interconnectedness, are considered incomplete, and are therefore open to further dissemination. One of the algorithms capable of efficiently and quickly mining rules from knowledge graphs is AMIE. This algorithm combines various techniques from the field of inductive logic programming and association rule mining. This thesis presents several algorithmic extensions to AMIE, which make it faster and more robust. All proposed approaches have been implemented and encapsulated in a single rule mining system called RDFRules, which can handle many knowledge graphs at once, merge them and analyze input data, mine rules according to the AMIE approach, process output rules, and use them for predictive or descriptive purposes. The performed evaluations show that the proposed improvements of the AMIE algorithm reduce the mining time by up to several orders of magnitude. Furthermore, it has been shown that the newly proposed data pre-processing and rules post-processing methods can discover additional knowledge and provide a better predictive ability of the assembled models than in the case of other common approaches.
Klíčová slova: rule learning; data mining; knowledge graphs; linked data
Název práce: Dolování pravidel nad propojenými daty
Autor(ka) práce: Zeman, Václav
Typ práce: Disertační práce
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Popelínský, Lubomír; Železný, Filip; Papotti, Paolo
Jazyk práce: English
Abstrakt:
Učení pravidel je jeden ze způsobů získávání znalostí z databází. S rostoucím množstvím strojově čitelných a propojených dat publikovaných na webu vznikají nové možnosti dolování dat, a to přímo ze znalostních grafů, do kterých jsou propojená data sdružována. Pro učení pravidel z propojených dat však nelze běžně použít konvenční přístupy s ohledem na vlastnosti znalostních grafů. Znalostní grafy můžou obsahovat milióny výroků, popisují různé entity v různých kontextech, mají vysokou míru propojenosti, jsou považovány za neúplné a tedy jsou otevřeny pro další rozšiřování. Jedním z algoritmů schopných efektivně a rychle dolovat pravidla ze znalostních grafů je AMIE. Tento algoritmus kombinuje techniky z oboru induktivního logického programování a dolování asociačních pravidel. Tato práce je primárně zaměřena na výkonnostní vylepšení AMIE algoritmu a na vývoj nových přístupů rozšiřující algoritmus o metody předzpracování dat a zpracování získaných pravidel, které poskytují komplexnější pokrytí procesu dolování propojených dat oproti původní AMIE implementaci. Na základě navržených přístupů byl implementován nástroj s názvem RDFRules schopný pojmout mnoho znalostních grafů, propojit je a analyzovat vstupní data, dolovat pravidla dle AMIE přístupu, zpracovat výstupní pravidla a použít je pro prediktivní či deskriptivní účely. Provedené evaluace ukazují, že navržená vylepšení AMIE algoritmu snižují čas dolování až o několik řádů. Dále bylo ukázáno, že na základě nově navržených metod předzpracování dat a zpracování pravidel bylo možné odhalit další znalosti a poskytnout lepší prediktivní schopnost sestavených modelů než v případě jiných běžných přístupů.
Klíčová slova: znalostní grafy; dolování dat; propojená data; učení pravidel

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Aplikovaná informatika
Typ studijního programu: Doktorský studijní program
Přidělovaná hodnost: Ph.D.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 14. 8. 2015
Datum podání práce: 24. 2. 2023
Datum obhajoby: 25. 5. 2023
Identifikátor v systému InSIS: https://insis.vse.cz/zp/53767/podrobnosti

Soubory ke stažení

    Poslední aktualizace: