Extrakce pravidel ze znalostních grafů

Název práce: Extrakce pravidel ze znalostních grafů
Autor(ka) práce: Šimečková, Jana
Typ práce: Bakalářská práce
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Svátek, Vojtěch
Jazyk práce: Česky
Abstrakt:
Tato práce se zabývá extrakcí pravidel z databází, se zaměřením na znalostní grafy. Znalostní grafy ukládají data pomocí tvorby entit a vztahů mezi nimi, což umožňuje ukládání velkého množství složitě propojených dat. Formátem často využívaným pro implementaci znalostních grafů je RDF. Z databází lze extrahovat pravidla, která umožňují například abstrakci nad daty nebo objevování nových asociací v datech. Pro extrakci pravidel je možné využít různé nástroje například AMIE, její rozšíření RDFRules, WARMR, SWARM, RuDiK, či Aleph. Cílem praktické části práce je využití nástroje RDFRules za účelem analýzy znalostního grafu KG-COVID-19. Tento graf se zabývá onemocněním covid-19, které způsobuje vir SARS-CoV-2 a v roce 2020 způsobilo pandemii. Analýza grafu obsahuje tři úlohy. Všechny se zabývají receptorem ACE2, který SARS-CoV-2 využívá pro vstup do buňky hostitele. Výstupem první úlohy jsou pravidla obsahující ACE2, interpretace jednoho z nich a ověření predikcí pravidla v literatuře. Druhá úloha se zabývá možnostmi nového využití již schválených léků cílících na receptor ACE1 také na ACE2. Výstupem druhé úlohy je pět léků z nichž u dvou je dohledaná správnost předpovědi v literatuře. Zadáním poslední třetí analýzy je porovnat výstupy extrakce pravidel pro ACE2 a Neuropilin, další receptor, který by potenciálně mohl sloužit jako vstup pro SARS-CoV-2 do buněk hostitele. Výstupem je pak seznam proteinů, které na základě analýzy reagují s oběma receptory.
Klíčová slova: SARS-Cov-2; asociační pravidla; KG-COVID-19; RDF; ACE2; datová analýza; sémantický web; extrakce pravidel; znalostní graf; Covid-19; AMIE
Název práce: Rule mining in knowledge graphs
Autor(ka) práce: Šimečková, Jana
Typ práce: Bachelor thesis
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Svátek, Vojtěch
Jazyk práce: Česky
Abstrakt:
This bachelor thesis deals with the rule mining from databases, with special focus on knowledge graphs. Knowledge graphs store data by creating entities and relations between them which allows for storing a large amount of data in a complex, connected way. When implementing knowledge graphs, the RDF format is frequently used. Data in databases can be mined for rules which can be useful namely for data abstraction or for finding new associations. With many tools generally used for rule mining, the ones described in this work are: AMIE and its extension RDFRules, WARMR, SWARM, RuDik and Aleph. In the practical part of this work RDFRules is used for KG-COVID-19 knowledge graph analysis. This graph contains data about the covid-19 disease caused by SARS-CoV-2 virus. This disease caused a pandemic in 2020. Analysis of the graph contains three tasks. All of them focus on the ACE2 receptor which is used by SARS-CoV-2 to enter a host cell. Output of the first task are rules referring to ACE2 and a validation of the results in literature. In the second task potential options for repurposing of ACE1 drugs for ACE2 are explored. Output of this task are five drugs with two of them being more closely analyzed. Last task compares the rules found for ACE2 and Neuropilin. Neuropilin is another receptor that could possibly serve as an entry for the virus into a host cell. Output of this task is the comparison of proteins found by the analysis that interact with both receptors.
Klíčová slova: SARS-Cov-2; RDF; rule mining; AMIE; association rules; ACE2; Covid-19; data analysis; knowledge graphs; KG-COVID-19; semantic web

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Aplikovaná informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 27. 3. 2020
Datum podání práce: 14. 12. 2020
Datum obhajoby: 28. 1. 2021
Identifikátor v systému InSIS: https://insis.vse.cz/zp/73109/podrobnosti

Soubory ke stažení

    Poslední aktualizace: