Rule mining in knowledge graphs

Thesis title: Extrakce pravidel ze znalostních grafů
Author: Šimečková, Jana
Thesis type: Bakalářská práce
Supervisor: Kliegr, Tomáš
Opponents: Svátek, Vojtěch
Thesis language: Česky
Abstract:
Tato práce se zabývá extrakcí pravidel z databází, se zaměřením na znalostní grafy. Znalostní grafy ukládají data pomocí tvorby entit a vztahů mezi nimi, což umožňuje ukládání velkého množství složitě propojených dat. Formátem často využívaným pro implementaci znalostních grafů je RDF. Z databází lze extrahovat pravidla, která umožňují například abstrakci nad daty nebo objevování nových asociací v datech. Pro extrakci pravidel je možné využít různé nástroje například AMIE, její rozšíření RDFRules, WARMR, SWARM, RuDiK, či Aleph. Cílem praktické části práce je využití nástroje RDFRules za účelem analýzy znalostního grafu KG-COVID-19. Tento graf se zabývá onemocněním covid-19, které způsobuje vir SARS-CoV-2 a v roce 2020 způsobilo pandemii. Analýza grafu obsahuje tři úlohy. Všechny se zabývají receptorem ACE2, který SARS-CoV-2 využívá pro vstup do buňky hostitele. Výstupem první úlohy jsou pravidla obsahující ACE2, interpretace jednoho z nich a ověření predikcí pravidla v literatuře. Druhá úloha se zabývá možnostmi nového využití již schválených léků cílících na receptor ACE1 také na ACE2. Výstupem druhé úlohy je pět léků z nichž u dvou je dohledaná správnost předpovědi v literatuře. Zadáním poslední třetí analýzy je porovnat výstupy extrakce pravidel pro ACE2 a Neuropilin, další receptor, který by potenciálně mohl sloužit jako vstup pro SARS-CoV-2 do buněk hostitele. Výstupem je pak seznam proteinů, které na základě analýzy reagují s oběma receptory.
Keywords: SARS-Cov-2; asociační pravidla; KG-COVID-19; RDF; ACE2; datová analýza; sémantický web; extrakce pravidel; znalostní graf; Covid-19; AMIE
Thesis title: Rule mining in knowledge graphs
Author: Šimečková, Jana
Thesis type: Bachelor thesis
Supervisor: Kliegr, Tomáš
Opponents: Svátek, Vojtěch
Thesis language: Česky
Abstract:
This bachelor thesis deals with the rule mining from databases, with special focus on knowledge graphs. Knowledge graphs store data by creating entities and relations between them which allows for storing a large amount of data in a complex, connected way. When implementing knowledge graphs, the RDF format is frequently used. Data in databases can be mined for rules which can be useful namely for data abstraction or for finding new associations. With many tools generally used for rule mining, the ones described in this work are: AMIE and its extension RDFRules, WARMR, SWARM, RuDik and Aleph. In the practical part of this work RDFRules is used for KG-COVID-19 knowledge graph analysis. This graph contains data about the covid-19 disease caused by SARS-CoV-2 virus. This disease caused a pandemic in 2020. Analysis of the graph contains three tasks. All of them focus on the ACE2 receptor which is used by SARS-CoV-2 to enter a host cell. Output of the first task are rules referring to ACE2 and a validation of the results in literature. In the second task potential options for repurposing of ACE1 drugs for ACE2 are explored. Output of this task are five drugs with two of them being more closely analyzed. Last task compares the rules found for ACE2 and Neuropilin. Neuropilin is another receptor that could possibly serve as an entry for the virus into a host cell. Output of this task is the comparison of proteins found by the analysis that interact with both receptors.
Keywords: SARS-Cov-2; RDF; rule mining; AMIE; association rules; ACE2; Covid-19; data analysis; knowledge graphs; KG-COVID-19; semantic web

Information about study

Study programme: Aplikovaná informatika/Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 27. 3. 2020
Date of submission: 14. 12. 2020
Date of defense: 28. 1. 2021
Identifier in the InSIS system: https://insis.vse.cz/zp/73109/podrobnosti

Files for download

    Last update: