Large Language Models as a tool for generating high-level features for text documents

Thesis title: Large Language Models as a tool for generating high-level features for text documents
Author: Balek, Vojtěch
Thesis type: Bachelor thesis
Supervisor: Kliegr, Tomáš
Opponents: Svátek, Vojtěch
Thesis language: English
Abstract:
This bachelor thesis investigates the usability of large language models (LLMs) for feature generation from text, evaluating whether LLMs can produce interpretable and usable features for machine-learning tasks. The study uses two labeled datasets: the CORD-19 corpus, consisting of coronavirus research articles with binary labels for high and low citation count, and a dataset of scientific articles from Czech research institutions, with article scores assigned according to the M17+ methodology (ranging from 1 to 5). Seven categorical features were generated for each dataset using the LLama2 language model. These features were used to train models for binary and ordinal classification tasks. Performance was compared to baseline naive models and models trained on term frequency-inverse document frequency (TF-IDF) and sentence embeddings. In the CORD-19 dataset, models using LLM-generated features achieved an accuracy of 59.8%, outperforming the baseline dummy classifier (50.2%) but falling short of TF-IDF (62.5%) and sentence embeddings (62.5%). Combining LLM-generated features with article abstract and title texts using the AutoGluon platform achieved the highest accuracy (66.5%), followed by combining TF-IDF terms and LLM-generated features (65.3%). For the M17+ dataset, the model using LLM-generated features attained an accuracy of 37%, surpassing the naive classifier (18%) and TF-IDF (34.3%). Sentence embeddings achieved the highest accuracy (40.8%), while the AutoGluon model trained on abstract and title text achieved 39.5%. LLM-generated features enhanced the predictive performance of models and demonstrated higher interpretability compared to traditional bibliometric features. However, a notable limitation is the computational cost; generating features for small datasets (2000-3000 samples) requires tens of hours on high-end hardware.
Keywords: classification; feature importance; feature extraction; interpretability; large language models
Thesis title: Velké jazykové modely jako nástroj pro extrakci rysů z textu
Author: Balek, Vojtěch
Thesis type: Bakalářská práce
Supervisor: Kliegr, Tomáš
Opponents: Svátek, Vojtěch
Thesis language: English
Abstract:
Tato bakalářská práce zkoumá použitelnost velkých jazykových modelů (LLM) pro generování příznaků z textu a hodnotí, zda LLM mohou produkovat interpretovatelné a použitelné příznaky pro úlohy strojového učení. Studie používá dvě označené datové sady: CORD-19 korpus, který se skládá z článků o výzkumu koronavirů s binárními štítky určující vysoký nebo nízký počet citací, a datovou sadu vědeckých článků z českých výzkumných institucí, s hodnocením článků podle metodiky M17+ (v rozmezí od 1 do 5). Pro každou datovou sadu bylo pomocí jazykového modelu LLama2 generováno sedm kategorických příznaků. Tyto příznaky byly použity k trénování modelů pro binární a ordinální klasifikační úlohy. Výkonnost byla porovnána s naivními modely a modely trénovanými na term frequency-inverse document frequency (TF-IDF) a větných vektorech. V datové sadě CORD-19 dosáhly modely využívající příznaky generované LLM správnosti 59,8 %, což překonalo naivní model (50,2 %), ale nedosáhlo výkonu TF-IDF (62,5 %) a vnořených vektorů (62,5 %). Kombinace příznaků generovaných LLM s texty abstraktů a titulů článků pomocí platformy AutoGluon dosáhla nejvyšší správnosti (66,5 %), následovaná kombinací TF-IDF termínů a příznaků generovaných LLM (65,3 %). Pro datovou sadu M17+ dosáhl model využívající příznaky generované LLM správnosti 37 %, což překonalo naivní model (18 %) a TF-IDF (34,3 %). Větné vektory dosáhly nejvyšší správnosti (40,8 %), zatímco model AutoGluon trénovaný na textech abstraktů a titulů dosáhl 39,5 %. Příznaky generované LLM zlepšily prediktivní výkon modelů a ukázaly vyšší interpretovatelnost ve srovnání s tradičními bibliometrickými příznaky. Významným omezením je však výpočetní náročnost; generování příznaků pro malé datové sady (2000, 3000 vzorků) vyžaduje desítky hodin na špičkovém hardwaru.
Keywords: velké jazykové modely; extrakce rysů; klasifikace; důležitost proměnných; interpretovatelnost

Information about study

Study programme: Data Analytics
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 11. 12. 2023
Date of submission: 27. 6. 2024
Date of defense: 2024

Files for download

The files will be available after the defense of the thesis.

    Last update: