Processing Research-related Information with Machine learning and Knowledge Graphs

Thesis title: Processing Research-related Information with Machine learning and Knowledge Graphs
Author: Rabby, Gollam
Thesis type: Dissertation thesis
Supervisor: Kliegr, Tomáš
Opponents: Vasileiadis, Nikolaos; Fiala, Dalibor; Mrázová, Iveta
Thesis language: English
Abstract:
This dissertation is devoted to machine learning in scientific knowledge graphs, a field concerned with constructing and studying methods that can learn from scientific data (especially scholarly documents) and the resulting graphs. The contributions of this dissertation are divided into four parts. An essential input for the automated processing of scholarly documents is their thematic classification, which needs to be more accurate and complete in the metadata. In the first part, we classify professional documents into thematic categories related to COVID-19. In the thesis, we evaluate several machine learning methods, while in addition to the correctness of the classification, we also focus on the interpretation of the created machine learning models. We also analyzed typical classification errors, which may contribute to further developing the respective methods. A large number of scholarly documents are currently available. As part of the dissertation, machine learning methods were investigated to determine the meaning or the importance of individual documents derived from their citation rate. The dissertation examined several factors that could improve the quality of the prediction of the importance of scientific documents, especially the use of thematic categorization of documents. As part of the experiments, a meaningful classifier was created separately for each thematic group, which made it possible to reflect domain specificities. The results were compared with a classifier built for all documents without categorizing. Relevant information for the automated processing of scholarly documents can also be obtained from external knowledge graphs, which can be used to enrich the content of scholarly documents. Therefore, a study was conducted regarding the impact of the selected knowledge graph (DBpedia) on classification accuracy. This study only analyzes domain-independent knowledge base effects, but in the future, we plan to investigate the impact of domain-specific knowledge bases containing domain-specific information. An essential aspect of the scholarly knowledge graph is the practical use of scientific information. The last part of the dissertation deals with the possibilities of incorporating the results of machine learning tasks into the Open Research Knowledge Graph, a knowledge graph describing scientific documents developed at the Leibniz Information Center for Science and Technology.
Keywords: Influential scholarly document prediction; Scholarly document classification; Scholarly knowledge graph; Text Mining; COVID-19; Multi-Class Classification
Thesis title: Processing Research-related Information with Machine learning and Knowledge Graphs
Author: Rabby, Gollam
Thesis type: Disertační práce
Supervisor: Kliegr, Tomáš
Opponents: Vasileiadis, Nikolaos; Fiala, Dalibor; Mrázová, Iveta
Thesis language: English
Abstract:
Tato disertační práce se věnuje strojovému učením v grafech vědeckých znalostí, což je oblast zabývající se jak konstrukcí a studiem algoritmů, které se mohou učit z vědeckých dat (zejména odborných dokumentů), tak i vzniklými grafy. Příspěvky této dizertační práce jsou rozděleny do čtyřech částí. Důležitým vstupem pro automatizované zpracování vědeckých dokumentů je jejich tématické zařazení, které v metadatech chybí nebo není přesné a úplné. V první části se zabýváme klasifikací odborných dokumentů do tématických kategorií souvisejících s COVID-19. V práci hodnotíme několik metod strojového učení, přičemž kromě správnosti klasifikace se také zaměřujeme na interpretaci vytvořených modelů strojového učení. Také jsme analyzovali typické chyby klasifikace, což může přispět k dalšímu rozvoji příslušných metod. V současnosti je k dispozici velké množství vědeckých dokumentů. V rámci dizertační práce bylo zkoumáno použití metod strojového učení pro určení významu jednotlivých dokumentů, který je odvozen od jejich míry citovanosti. V dizertační práci bylo zkoumáno několik faktorů, které by kvalitu predikce významu vědeckých dokumentů mohly zpřesnit, zejména využití tématické kategorizace dokumentů. V rámci experimentů byl vytvořen klasifikátor významu samostatně pro každou tématickou skupinu, což umožnilo refkletovat doménová specifika. Výsledky byly porovnány s klasifikátorem vytvořeným pro všechny dokumenty bez využití kategorizace. Relevantní informace pro automatizované zpracování vědeckých dokumentů lze získat i z externích znalostních bází, jimiž lze obsah dokumentů obohatit. Byla proto provedena studie týkající se dopadu vybrané znalostní báze (DBpedia) na klasifikační správnost. Tato studie analyzuje pouze účinky znalostní báze nezávislé na doméně, ale v budoucnu plánujeme analyzovat účinky doménově-specifických znalostních bází obsahujících informace pro konkrétní obor. Důležitým aspektem je praktické využití vědeckých informací. Poslední část dizertační práce se věnuje možnostem začlenění výsledků úloh strojového učení do znalostního grafu Open Research Knowledge Grap, což je znalostní graf popisujících vědecké dokumenty vyvinutý v Leibniz Information Centre for Science and Technology.
Keywords: Graf vědeckých znalostí; Vícetřídní klasifikace; Klasifikace vědeckých dokumentů; COVID-19; Klasifikace vlivných vědeckých dokumentů

Information about study

Study programme: Applied Informatics
Type of study programme: Doktorský studijní program
Assigned degree: Ph.D.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 24. 1. 2020
Date of submission: 3. 4. 2023
Date of defense: 25. 5. 2023
Identifier in the InSIS system: https://insis.vse.cz/zp/72243/podrobnosti

Files for download

    Last update: