Dolování pravidel nad propojenými daty
Název práce: | Rule mining over linked data |
---|---|
Autor(ka) práce: | Zeman, Václav |
Typ práce: | Dissertation thesis |
Vedoucí práce: | Kliegr, Tomáš |
Oponenti práce: | Popelínský, Lubomír; Železný, Filip; Papotti, Paolo |
Jazyk práce: | English |
Abstrakt: | Rule learning is one way for knowledge discovery from databases. With the growing amount of machine-readable and linked data published on the web, conventional rule mining algorithms needed to be adapted to the properties of the knowledge graphs into which linked data are grouped. Knowledge graphs can contain millions of statements, describe different entities in different contexts, have a high degree of interconnectedness, are considered incomplete, and are therefore open to further dissemination. One of the algorithms capable of efficiently and quickly mining rules from knowledge graphs is AMIE. This algorithm combines various techniques from the field of inductive logic programming and association rule mining. This thesis presents several algorithmic extensions to AMIE, which make it faster and more robust. All proposed approaches have been implemented and encapsulated in a single rule mining system called RDFRules, which can handle many knowledge graphs at once, merge them and analyze input data, mine rules according to the AMIE approach, process output rules, and use them for predictive or descriptive purposes. The performed evaluations show that the proposed improvements of the AMIE algorithm reduce the mining time by up to several orders of magnitude. Furthermore, it has been shown that the newly proposed data pre-processing and rules post-processing methods can discover additional knowledge and provide a better predictive ability of the assembled models than in the case of other common approaches. |
Klíčová slova: | rule learning; data mining; knowledge graphs; linked data |
Název práce: | Dolování pravidel nad propojenými daty |
---|---|
Autor(ka) práce: | Zeman, Václav |
Typ práce: | Disertační práce |
Vedoucí práce: | Kliegr, Tomáš |
Oponenti práce: | Popelínský, Lubomír; Železný, Filip; Papotti, Paolo |
Jazyk práce: | English |
Abstrakt: | Učení pravidel je jeden ze způsobů získávání znalostí z databází. S rostoucím množstvím strojově čitelných a propojených dat publikovaných na webu vznikají nové možnosti dolování dat, a to přímo ze znalostních grafů, do kterých jsou propojená data sdružována. Pro učení pravidel z propojených dat však nelze běžně použít konvenční přístupy s ohledem na vlastnosti znalostních grafů. Znalostní grafy můžou obsahovat milióny výroků, popisují různé entity v různých kontextech, mají vysokou míru propojenosti, jsou považovány za neúplné a tedy jsou otevřeny pro další rozšiřování. Jedním z algoritmů schopných efektivně a rychle dolovat pravidla ze znalostních grafů je AMIE. Tento algoritmus kombinuje techniky z oboru induktivního logického programování a dolování asociačních pravidel. Tato práce je primárně zaměřena na výkonnostní vylepšení AMIE algoritmu a na vývoj nových přístupů rozšiřující algoritmus o metody předzpracování dat a zpracování získaných pravidel, které poskytují komplexnější pokrytí procesu dolování propojených dat oproti původní AMIE implementaci. Na základě navržených přístupů byl implementován nástroj s názvem RDFRules schopný pojmout mnoho znalostních grafů, propojit je a analyzovat vstupní data, dolovat pravidla dle AMIE přístupu, zpracovat výstupní pravidla a použít je pro prediktivní či deskriptivní účely. Provedené evaluace ukazují, že navržená vylepšení AMIE algoritmu snižují čas dolování až o několik řádů. Dále bylo ukázáno, že na základě nově navržených metod předzpracování dat a zpracování pravidel bylo možné odhalit další znalosti a poskytnout lepší prediktivní schopnost sestavených modelů než v případě jiných běžných přístupů. |
Klíčová slova: | znalostní grafy; dolování dat; propojená data; učení pravidel |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Aplikovaná informatika |
---|---|
Typ studijního programu: | Doktorský studijní program |
Přidělovaná hodnost: | Ph.D. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 14. 8. 2015 |
---|---|
Datum podání práce: | 24. 2. 2023 |
Datum obhajoby: | 25. 5. 2023 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/53767/podrobnosti |