Mining rules from knowledge graphs

Thesis title: Mining rules from knowledge graphs
Author: Ludvíková, Dominika
Thesis type: Diploma thesis
Supervisor: Svátek, Vojtěch
Opponents: Berka, Petr
Thesis language: English
Abstract:
This thesis explores the topics of knowledge graphs and mining association rules from them. Knowledge graphs are large data structures which store linked data that describe the relations between entities in a semantic way. The massive quantities of data stored in those graphs are a great source of material for data mining analysis. One of the most explainable data mining methods that focuses on finding relationships and patterns is association rule mining. Biochemistry is one of the most progressive fields in terms of publishing linked data. One example of this effort is KG-Microbe which is a knowledge graph that connects data concerning microorganisms and their features and functions. The experiment which is described in this thesis uses a special tool called RDFRules for mining association rules from this knowledge graph. Other experiments have been conducted on the data from this knowledge graph in a flattened format and using less explainable machine learning methods. This work describes the process of creating an association-rule-based classifier to make predictions about the cultivation medium of a microbe. While the accuracy of this classifier is not on par with a referential CatBoost classifier, the results are highly interpretable and can be used for further analysis of the new-found patterns in the graph.
Keywords: KG-Microbe; knowledge graphs; association rules; data mining; RDF; linked data; RDFRules
Thesis title: Dolování pravidel ze znalostních grafů
Author: Ludvíková, Dominika
Thesis type: Diplomová práce
Supervisor: Svátek, Vojtěch
Opponents: Berka, Petr
Thesis language: English
Abstract:
Tato práce se zabývá tématy znalostních grafů a dolování asociačních pravidel z nich. Znalostní grafy jsou velké datové struktury, které obsahují propojená data, která sémantickým způsobem popisují vztahy mezi entitami. Obrovské množství dat uložených v těchto grafech je skvělým zdrojem materiálu pro data miningovou analýzu. Jednou z nejlépe vysvětlitelných metod data miningu, která se zaměřuje na hledání vztahů a vzorců, je dolování asociačních pravidel. Biochemie je jedním z nejprogresivnějších oborů z hlediska publikování propojených dat. Jedním z příkladů tohoto úsilí je KG-Microbe, což je znalostní graf, který spojuje data týkající se mikroorganismů a jejich vlastnosti a funkce. Experiment popsaný v této práci využívá speciální nástroj RDFRules pro dolování asociačních pravidel z tohoto znalostního grafu. Jiné experimenty byly provedeny na datech z tohoto znalostního grafu v tabulkovém formátu a za použití metod strojového učení, které jsou méně vysvětlitelné. Tato práce popisuje proces vytváření klasifikátoru založeného na asociačních pravidlech pro predikci kultivačního média pro mikroby. Přestože přesnost tohoto klasifikátoru není na stejné úrovni jako referenční klasifikátor CatBoost, výsledky jsou vysoce interpretovatelné a lze je použít pro další analýzu nově nalezených vzorů v grafu.
Keywords: asociační pravidla; data mining; znalostní grafy; KG-Microbe; propojená data; RDF; RDFRules

Information about study

Study programme: Znalostní a webové technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 16. 4. 2023
Date of submission: 2. 12. 2024
Date of defense: 2024

Files for download

The files will be available after the defense of the thesis.

    Last update: