Velké jazykové modely jako nástroj pro extrakci rysů z textu

Název práce: Large Language Models as a tool for generating high-level features for text documents
Autor(ka) práce: Balek, Vojtěch
Typ práce: Bachelor thesis
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Svátek, Vojtěch
Jazyk práce: English
Abstrakt:
This bachelor thesis investigates the usability of large language models (LLMs) for feature generation from text, evaluating whether LLMs can produce interpretable and usable features for machine-learning tasks. The study uses two labeled datasets: the CORD-19 corpus, consisting of coronavirus research articles with binary labels for high and low citation count, and a dataset of scientific articles from Czech research institutions, with article scores assigned according to the M17+ methodology (... zobrazit celý abstrakt
Klíčová slova: classification; feature importance; feature extraction; interpretability; large language models
Název práce: Velké jazykové modely jako nástroj pro extrakci rysů z textu
Autor(ka) práce: Balek, Vojtěch
Typ práce: Bakalářská práce
Vedoucí práce: Kliegr, Tomáš
Oponenti práce: Svátek, Vojtěch
Jazyk práce: English
Abstrakt:
Tato bakalářská práce zkoumá použitelnost velkých jazykových modelů (LLM) pro generování příznaků z textu a hodnotí, zda LLM mohou produkovat interpretovatelné a použitelné příznaky pro úlohy strojového učení. Studie používá dvě označené datové sady: CORD-19 korpus, který se skládá z článků o výzkumu koronavirů s binárními štítky určující vysoký nebo nízký počet citací, a datovou sadu vědeckých článků z českých výzkumných institucí, s hodnocením článků podle metodiky M17+ (v rozmezí od 1 do 5). ... zobrazit celý abstrakt
Klíčová slova: velké jazykové modely; extrakce rysů; klasifikace; důležitost proměnných; interpretovatelnost

Informace o studiu

Studijní program / obor: Data Analytics
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce: 11. 12. 2023
Datum podání práce: 27. 6. 2024
Datum obhajoby: 22. 8. 2024
Identifikátor v systému InSIS: https://insis.vse.cz/zp/86858/podrobnosti

Soubory ke stažení

    Poslední aktualizace: