Processing Research-related Information with Machine learning and Knowledge Graphs
Název práce: | Processing Research-related Information with Machine learning and Knowledge Graphs |
---|---|
Autor(ka) práce: | Rabby, Gollam |
Typ práce: | Dissertation thesis |
Vedoucí práce: | Kliegr, Tomáš |
Oponenti práce: | Vasileiadis, Nikolaos; Fiala, Dalibor; Mrázová, Iveta |
Jazyk práce: | English |
Abstrakt: | This dissertation is devoted to machine learning in scientific knowledge graphs, a field concerned with constructing and studying methods that can learn from scientific data (especially scholarly documents) and the resulting graphs. The contributions of this dissertation are divided into four parts. An essential input for the automated processing of scholarly documents is their thematic classification, which needs to be more accurate and complete in the metadata. In the first part, we classify professional documents into thematic categories related to COVID-19. In the thesis, we evaluate several machine learning methods, while in addition to the correctness of the classification, we also focus on the interpretation of the created machine learning models. We also analyzed typical classification errors, which may contribute to further developing the respective methods. A large number of scholarly documents are currently available. As part of the dissertation, machine learning methods were investigated to determine the meaning or the importance of individual documents derived from their citation rate. The dissertation examined several factors that could improve the quality of the prediction of the importance of scientific documents, especially the use of thematic categorization of documents. As part of the experiments, a meaningful classifier was created separately for each thematic group, which made it possible to reflect domain specificities. The results were compared with a classifier built for all documents without categorizing. Relevant information for the automated processing of scholarly documents can also be obtained from external knowledge graphs, which can be used to enrich the content of scholarly documents. Therefore, a study was conducted regarding the impact of the selected knowledge graph (DBpedia) on classification accuracy. This study only analyzes domain-independent knowledge base effects, but in the future, we plan to investigate the impact of domain-specific knowledge bases containing domain-specific information. An essential aspect of the scholarly knowledge graph is the practical use of scientific information. The last part of the dissertation deals with the possibilities of incorporating the results of machine learning tasks into the Open Research Knowledge Graph, a knowledge graph describing scientific documents developed at the Leibniz Information Center for Science and Technology. |
Klíčová slova: | Influential scholarly document prediction; Scholarly document classification; Scholarly knowledge graph; Text Mining; COVID-19; Multi-Class Classification |
Název práce: | Processing Research-related Information with Machine learning and Knowledge Graphs |
---|---|
Autor(ka) práce: | Rabby, Gollam |
Typ práce: | Disertační práce |
Vedoucí práce: | Kliegr, Tomáš |
Oponenti práce: | Vasileiadis, Nikolaos; Fiala, Dalibor; Mrázová, Iveta |
Jazyk práce: | English |
Abstrakt: | Tato disertační práce se věnuje strojovému učením v grafech vědeckých znalostí, což je oblast zabývající se jak konstrukcí a studiem algoritmů, které se mohou učit z vědeckých dat (zejména odborných dokumentů), tak i vzniklými grafy. Příspěvky této dizertační práce jsou rozděleny do čtyřech částí. Důležitým vstupem pro automatizované zpracování vědeckých dokumentů je jejich tématické zařazení, které v metadatech chybí nebo není přesné a úplné. V první části se zabýváme klasifikací odborných dokumentů do tématických kategorií souvisejících s COVID-19. V práci hodnotíme několik metod strojového učení, přičemž kromě správnosti klasifikace se také zaměřujeme na interpretaci vytvořených modelů strojového učení. Také jsme analyzovali typické chyby klasifikace, což může přispět k dalšímu rozvoji příslušných metod. V současnosti je k dispozici velké množství vědeckých dokumentů. V rámci dizertační práce bylo zkoumáno použití metod strojového učení pro určení významu jednotlivých dokumentů, který je odvozen od jejich míry citovanosti. V dizertační práci bylo zkoumáno několik faktorů, které by kvalitu predikce významu vědeckých dokumentů mohly zpřesnit, zejména využití tématické kategorizace dokumentů. V rámci experimentů byl vytvořen klasifikátor významu samostatně pro každou tématickou skupinu, což umožnilo refkletovat doménová specifika. Výsledky byly porovnány s klasifikátorem vytvořeným pro všechny dokumenty bez využití kategorizace. Relevantní informace pro automatizované zpracování vědeckých dokumentů lze získat i z externích znalostních bází, jimiž lze obsah dokumentů obohatit. Byla proto provedena studie týkající se dopadu vybrané znalostní báze (DBpedia) na klasifikační správnost. Tato studie analyzuje pouze účinky znalostní báze nezávislé na doméně, ale v budoucnu plánujeme analyzovat účinky doménově-specifických znalostních bází obsahujících informace pro konkrétní obor. Důležitým aspektem je praktické využití vědeckých informací. Poslední část dizertační práce se věnuje možnostem začlenění výsledků úloh strojového učení do znalostního grafu Open Research Knowledge Grap, což je znalostní graf popisujících vědecké dokumenty vyvinutý v Leibniz Information Centre for Science and Technology. |
Klíčová slova: | Graf vědeckých znalostí; Vícetřídní klasifikace; Klasifikace vědeckých dokumentů; COVID-19; Klasifikace vlivných vědeckých dokumentů |
Informace o studiu
Studijní program / obor: | Applied Informatics |
---|---|
Typ studijního programu: | Doktorský studijní program |
Přidělovaná hodnost: | Ph.D. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 24. 1. 2020 |
---|---|
Datum podání práce: | 3. 4. 2023 |
Datum obhajoby: | 25. 5. 2023 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/72243/podrobnosti |