Velké jazykové modely jako nástroj pro extrakci rysů z textu

English
Česky

Název práce:	Large Language Models as a tool for generating high-level features for text documents
Autor(ka) práce:	Balek, Vojtěch
Typ práce:	Bachelor thesis
Vedoucí práce:	Kliegr, Tomáš
Oponenti práce:	Svátek, Vojtěch
Jazyk práce:	English
Abstrakt:	This bachelor thesis investigates the usability of large language models (LLMs) for feature generation from text, evaluating whether LLMs can produce interpretable and usable features for machine-learning tasks. The study uses two labeled datasets: the CORD-19 corpus, consisting of coronavirus research articles with binary labels for high and low citation count, and a dataset of scientific articles from Czech research institutions, with article scores assigned according to the M17+ methodology (ranging from 1 to 5). Seven categorical features were generated for each dataset using the LLama2 language model. These features were used to train models for binary and ordinal classification tasks. Performance was compared to baseline naive models and models trained on term frequency-inverse document frequency (TF-IDF) and sentence embeddings. In the CORD-19 dataset, models using LLM-generated features achieved an accuracy of 59.8%, outperforming the baseline dummy classifier (50.2%) but falling short of TF-IDF (62.5%) and sentence embeddings (62.5%). Combining LLM-generated features with article abstract and title texts using the AutoGluon platform achieved the highest accuracy (66.5%), followed by combining TF-IDF terms and LLM-generated features (65.3%). For the M17+ dataset, the model using LLM-generated features attained an accuracy of 37%, surpassing the naive classifier (18%) and TF-IDF (34.3%). Sentence embeddings achieved the highest accuracy (40.8%), while the AutoGluon model trained on abstract and title text achieved 39.5%. LLM-generated features enhanced the predictive performance of models and demonstrated higher interpretability compared to traditional bibliometric features. However, a notable limitation is the computational cost; generating features for small datasets (2000-3000 samples) requires tens of hours on high-end hardware.
Klíčová slova:	classification; feature importance; feature extraction; interpretability; large language models

Název práce:	Velké jazykové modely jako nástroj pro extrakci rysů z textu
Autor(ka) práce:	Balek, Vojtěch
Typ práce:	Bakalářská práce
Vedoucí práce:	Kliegr, Tomáš
Oponenti práce:	Svátek, Vojtěch
Jazyk práce:	English
Abstrakt:	Tato bakalářská práce zkoumá použitelnost velkých jazykových modelů (LLM) pro generování příznaků z textu a hodnotí, zda LLM mohou produkovat interpretovatelné a použitelné příznaky pro úlohy strojového učení. Studie používá dvě označené datové sady: CORD-19 korpus, který se skládá z článků o výzkumu koronavirů s binárními štítky určující vysoký nebo nízký počet citací, a datovou sadu vědeckých článků z českých výzkumných institucí, s hodnocením článků podle metodiky M17+ (v rozmezí od 1 do 5). Pro každou datovou sadu bylo pomocí jazykového modelu LLama2 generováno sedm kategorických příznaků. Tyto příznaky byly použity k trénování modelů pro binární a ordinální klasifikační úlohy. Výkonnost byla porovnána s naivními modely a modely trénovanými na term frequency-inverse document frequency (TF-IDF) a větných vektorech. V datové sadě CORD-19 dosáhly modely využívající příznaky generované LLM správnosti 59,8 %, což překonalo naivní model (50,2 %), ale nedosáhlo výkonu TF-IDF (62,5 %) a vnořených vektorů (62,5 %). Kombinace příznaků generovaných LLM s texty abstraktů a titulů článků pomocí platformy AutoGluon dosáhla nejvyšší správnosti (66,5 %), následovaná kombinací TF-IDF termínů a příznaků generovaných LLM (65,3 %). Pro datovou sadu M17+ dosáhl model využívající příznaky generované LLM správnosti 37 %, což překonalo naivní model (18 %) a TF-IDF (34,3 %). Větné vektory dosáhly nejvyšší správnosti (40,8 %), zatímco model AutoGluon trénovaný na textech abstraktů a titulů dosáhl 39,5 %. Příznaky generované LLM zlepšily prediktivní výkon modelů a ukázaly vyšší interpretovatelnost ve srovnání s tradičními bibliometrickými příznaky. Významným omezením je však výpočetní náročnost; generování příznaků pro malé datové sady (2000, 3000 vzorků) vyžaduje desítky hodin na špičkovém hardwaru.
Klíčová slova:	velké jazykové modely; extrakce rysů; klasifikace; důležitost proměnných; interpretovatelnost

Informace o studiu

Studijní program / obor:	Data Analytics
Typ studijního programu:	Bakalářský studijní program
Přidělovaná hodnost:	Bc.
Instituce přidělující hodnost:	Vysoká škola ekonomická v Praze
Fakulta:	Fakulta informatiky a statistiky
Katedra:	Katedra informačního a znalostního inženýrství

Informace o odevzdání a obhajobě

Datum zadání práce:	11. 12. 2023
Datum podání práce:	27. 6. 2024
Datum obhajoby:	22. 8. 2024
Identifikátor v systému InSIS:	https://insis.vse.cz/zp/86858/podrobnosti

Soubory ke stažení

Hlavní práce
86858_balv05.pdf, 742.1 kB Stáhnout

Příloha práce
29367_balv05.unknown, 31.4 kB Stáhnout

Příloha práce
29368_balv05.unknown, 4.6 MB Stáhnout

Příloha práce
29369_balv05.csv, 3.9 MB Stáhnout

Příloha práce
29370_balv05.csv, 511 kB Stáhnout

Příloha práce
29371_balv05.csv, 3.9 MB Stáhnout

Příloha práce
29372_balv05.csv, 2 MB Stáhnout

Oponentura
83889_svatek.pdf, 145.3 kB Stáhnout

Hodnocení vedoucího
86858_klit01.pdf, 111.5 kB Stáhnout