Využití velkých jazykových modelů pro extrakci informací s aplikacemi ve znalostních grafech

Název práce: Využití velkých jazykových modelů pro extrakci informací s aplikacemi ve znalostních grafech
Autor(ka) práce: Adam, Daniel
Typ práce: Bakalářská práce
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Zeman, Václav
Jazyk práce: Česky
Abstrakt:
Bakalářská práce se zaměřuje na využití velkých jazykových modelů pro extrakci informací s aplikacemi ve znalostních grafech. V teoretické části je provedena rešerše na využití a definování extrakce informací. Dále je provedena rešerše na téma znalostních grafů s příklady využití jazykových modelů. Část je věnována datovým zdrojům a jejich důvěryhodnosti. Praktická část se věnuje validačnímu skriptu pro verifikaci RDF tvrzení z portálu Wikidata. Byl zjištěn aktuální stav jazykových modelů s ohledem na extrakci informací a znalostní grafy. Práce popisuje rozdíly mezi méně výkonnými a více výkonnými jazykovými modely, které se mohou projevovat například rychlostí generování odpovědí nebo kvalitou usuzování. Nakonec byl implementován skript v jazyce Python, který byl otestován na 3 Wikidata subjektech za použití jazykových modelů ChatGPT-3 a ChatGPT-4. Byla provedena ruční předběžná evaluace, která zjistila, že model ChatGPT-4 odpovídá lépe a přesněji než model ChatGPT-3, ale naznačila možnost jejich zkombinování pro zajištění rychlejších a přesnějších výsledků.
Klíčová slova: Velké jazykové modely; RDF tvrzení; ChatGPT
Název práce: Using large language models for information extraction with applications in knowledge graphs
Autor(ka) práce: Adam, Daniel
Typ práce: Bachelor thesis
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Zeman, Václav
Jazyk práce: Česky
Abstrakt:
The bachelor’s thesis focuses on using large language models for information extraction with applications in knowledge graphs. The theoretical part offers research on the definition of information extraction and its types. Next, research about knowledge graphs and using large language models is conducted. The thesis contains a subsection given to data sources and reliable data websites, introducing a Wikipedia ranking list. The practical part of the thesis focuses on a validation script in Python for verifying RDF statements from Wikidata. The thesis covers the current state of using large language models for information extraction and knowledge graph engineering. It shows the differences between less and more capable language models. A Python script was implemented and tested on 3 Wikidata subjects. A manual evaluation was performed which again showed a gap between different language models but on the other hand suggested a possible combination of different models to optimize the process and deliver better and faster results.
Klíčová slova: Large language models; RDF statements; ChatGPT

Informace o studiu

Studijní program / obor: Aplikovaná informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 22. 9. 2023
Datum podání práce: 5. 5. 2024
Datum obhajoby: 14. 6. 2024
Identifikátor v systému InSIS: https://insis.vse.cz/zp/85544/podrobnosti

Soubory ke stažení

    Poslední aktualizace: