Velké jazykové modely jako nástroj pro extrakci rysů z textu
Název práce: | Large Language Models as a tool for generating high-level features for text documents |
---|---|
Autor(ka) práce: | Balek, Vojtěch |
Typ práce: | Bachelor thesis |
Vedoucí práce: | Kliegr, Tomáš |
Oponenti práce: | Svátek, Vojtěch |
Jazyk práce: | English |
Abstrakt: | This bachelor thesis investigates the usability of large language models (LLMs) for feature generation from text, evaluating whether LLMs can produce interpretable and usable features for machine-learning tasks. The study uses two labeled datasets: the CORD-19 corpus, consisting of coronavirus research articles with binary labels for high and low citation count, and a dataset of scientific articles from Czech research institutions, with article scores assigned according to the M17+ methodology (ranging from 1 to 5). Seven categorical features were generated for each dataset using the LLama2 language model. These features were used to train models for binary and ordinal classification tasks. Performance was compared to baseline naive models and models trained on term frequency-inverse document frequency (TF-IDF) and sentence embeddings. In the CORD-19 dataset, models using LLM-generated features achieved an accuracy of 59.8%, outperforming the baseline dummy classifier (50.2%) but falling short of TF-IDF (62.5%) and sentence embeddings (62.5%). Combining LLM-generated features with article abstract and title texts using the AutoGluon platform achieved the highest accuracy (66.5%), followed by combining TF-IDF terms and LLM-generated features (65.3%). For the M17+ dataset, the model using LLM-generated features attained an accuracy of 37%, surpassing the naive classifier (18%) and TF-IDF (34.3%). Sentence embeddings achieved the highest accuracy (40.8%), while the AutoGluon model trained on abstract and title text achieved 39.5%. LLM-generated features enhanced the predictive performance of models and demonstrated higher interpretability compared to traditional bibliometric features. However, a notable limitation is the computational cost; generating features for small datasets (2000-3000 samples) requires tens of hours on high-end hardware. |
Klíčová slova: | classification; feature importance; feature extraction; interpretability; large language models |
Název práce: | Velké jazykové modely jako nástroj pro extrakci rysů z textu |
---|---|
Autor(ka) práce: | Balek, Vojtěch |
Typ práce: | Bakalářská práce |
Vedoucí práce: | Kliegr, Tomáš |
Oponenti práce: | Svátek, Vojtěch |
Jazyk práce: | English |
Abstrakt: | Tato bakalářská práce zkoumá použitelnost velkých jazykových modelů (LLM) pro generování příznaků z textu a hodnotí, zda LLM mohou produkovat interpretovatelné a použitelné příznaky pro úlohy strojového učení. Studie používá dvě označené datové sady: CORD-19 korpus, který se skládá z článků o výzkumu koronavirů s binárními štítky určující vysoký nebo nízký počet citací, a datovou sadu vědeckých článků z českých výzkumných institucí, s hodnocením článků podle metodiky M17+ (v rozmezí od 1 do 5). Pro každou datovou sadu bylo pomocí jazykového modelu LLama2 generováno sedm kategorických příznaků. Tyto příznaky byly použity k trénování modelů pro binární a ordinální klasifikační úlohy. Výkonnost byla porovnána s naivními modely a modely trénovanými na term frequency-inverse document frequency (TF-IDF) a větných vektorech. V datové sadě CORD-19 dosáhly modely využívající příznaky generované LLM správnosti 59,8 %, což překonalo naivní model (50,2 %), ale nedosáhlo výkonu TF-IDF (62,5 %) a vnořených vektorů (62,5 %). Kombinace příznaků generovaných LLM s texty abstraktů a titulů článků pomocí platformy AutoGluon dosáhla nejvyšší správnosti (66,5 %), následovaná kombinací TF-IDF termínů a příznaků generovaných LLM (65,3 %). Pro datovou sadu M17+ dosáhl model využívající příznaky generované LLM správnosti 37 %, což překonalo naivní model (18 %) a TF-IDF (34,3 %). Větné vektory dosáhly nejvyšší správnosti (40,8 %), zatímco model AutoGluon trénovaný na textech abstraktů a titulů dosáhl 39,5 %. Příznaky generované LLM zlepšily prediktivní výkon modelů a ukázaly vyšší interpretovatelnost ve srovnání s tradičními bibliometrickými příznaky. Významným omezením je však výpočetní náročnost; generování příznaků pro malé datové sady (2000, 3000 vzorků) vyžaduje desítky hodin na špičkovém hardwaru. |
Klíčová slova: | velké jazykové modely; extrakce rysů; klasifikace; důležitost proměnných; interpretovatelnost |
Informace o studiu
Studijní program / obor: | Data Analytics |
---|---|
Typ studijního programu: | Bakalářský studijní program |
Přidělovaná hodnost: | Bc. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 11. 12. 2023 |
---|---|
Datum podání práce: | 27. 6. 2024 |
Datum obhajoby: | 22. 8. 2024 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/86858/podrobnosti |