Dolování pravidel ze znalostních grafů

Název práce: Mining rules from knowledge graphs
Autor(ka) práce: Ludvíková, Dominika
Typ práce: Diploma thesis
Vedoucí práce: Svátek, Vojtěch
Oponenti práce: Berka, Petr
Jazyk práce: English
Abstrakt:
This thesis explores the topics of knowledge graphs and mining association rules from them. Knowledge graphs are large data structures which store linked data that describe the relations between entities in a semantic way. The massive quantities of data stored in those graphs are a great source of material for data mining analysis. One of the most explainable data mining methods that focuses on finding relationships and patterns is association rule mining. Biochemistry is one of the most progressive fields in terms of publishing linked data. One example of this effort is KG-Microbe which is a knowledge graph that connects data concerning microorganisms and their features and functions. The experiment which is described in this thesis uses a special tool called RDFRules for mining association rules from this knowledge graph. Other experiments have been conducted on the data from this knowledge graph in a flattened format and using less explainable machine learning methods. This work describes the process of creating an association-rule-based classifier to make predictions about the cultivation medium of a microbe. While the accuracy of this classifier is not on par with a referential CatBoost classifier, the results are highly interpretable and can be used for further analysis of the new-found patterns in the graph.
Klíčová slova: KG-Microbe; knowledge graphs; association rules; data mining; RDF; linked data; RDFRules
Název práce: Dolování pravidel ze znalostních grafů
Autor(ka) práce: Ludvíková, Dominika
Typ práce: Diplomová práce
Vedoucí práce: Svátek, Vojtěch
Oponenti práce: Berka, Petr
Jazyk práce: English
Abstrakt:
Tato práce se zabývá tématy znalostních grafů a dolování asociačních pravidel z nich. Znalostní grafy jsou velké datové struktury, které obsahují propojená data, která sémantickým způsobem popisují vztahy mezi entitami. Obrovské množství dat uložených v těchto grafech je skvělým zdrojem materiálu pro data miningovou analýzu. Jednou z nejlépe vysvětlitelných metod data miningu, která se zaměřuje na hledání vztahů a vzorců, je dolování asociačních pravidel. Biochemie je jedním z nejprogresivnějších oborů z hlediska publikování propojených dat. Jedním z příkladů tohoto úsilí je KG-Microbe, což je znalostní graf, který spojuje data týkající se mikroorganismů a jejich vlastnosti a funkce. Experiment popsaný v této práci využívá speciální nástroj RDFRules pro dolování asociačních pravidel z tohoto znalostního grafu. Jiné experimenty byly provedeny na datech z tohoto znalostního grafu v tabulkovém formátu a za použití metod strojového učení, které jsou méně vysvětlitelné. Tato práce popisuje proces vytváření klasifikátoru založeného na asociačních pravidlech pro predikci kultivačního média pro mikroby. Přestože přesnost tohoto klasifikátoru není na stejné úrovni jako referenční klasifikátor CatBoost, výsledky jsou vysoce interpretovatelné a lze je použít pro další analýzu nově nalezených vzorů v grafu.
Klíčová slova: asociační pravidla; data mining; znalostní grafy; KG-Microbe; propojená data; RDF; RDFRules

Informace o studiu

Studijní program / obor: Znalostní a webové technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 16. 4. 2023
Datum podání práce: 2. 12. 2024
Datum obhajoby: 2024

Soubory ke stažení

Soubory budou k dispozici až po obhajobě práce.

    Poslední aktualizace: