Tato bakalářská práce zkoumá použitelnost velkých jazykových modelů (LLM) pro generování příznaků z textu a hodnotí, zda LLM mohou produkovat interpretovatelné a použitelné příznaky pro úlohy strojového učení. Studie používá dvě označené datové sady: CORD-19 korpus, který se skládá z článků o výzkumu koronavirů s binárními štítky určující vysoký nebo nízký počet citací, a datovou sadu vědeckých článků z českých výzkumných institucí, s hodnocením článků podle metodiky M17+ (v rozmezí od 1 do 5). ... zobrazit celý abstraktTato bakalářská práce zkoumá použitelnost velkých jazykových modelů (LLM) pro generování příznaků z textu a hodnotí, zda LLM mohou produkovat interpretovatelné a použitelné příznaky pro úlohy strojového učení. Studie používá dvě označené datové sady: CORD-19 korpus, který se skládá z článků o výzkumu koronavirů s binárními štítky určující vysoký nebo nízký počet citací, a datovou sadu vědeckých článků z českých výzkumných institucí, s hodnocením článků podle metodiky M17+ (v rozmezí od 1 do 5). Pro každou datovou sadu bylo pomocí jazykového modelu LLama2 generováno sedm kategorických příznaků. Tyto příznaky byly použity k trénování modelů pro binární a ordinální klasifikační úlohy. Výkonnost byla porovnána s naivními modely a modely trénovanými na term frequency-inverse document frequency (TF-IDF) a větných vektorech. V datové sadě CORD-19 dosáhly modely využívající příznaky generované LLM správnosti 59,8 %, což překonalo naivní model (50,2 %), ale nedosáhlo výkonu TF-IDF (62,5 %) a vnořených vektorů (62,5 %). Kombinace příznaků generovaných LLM s texty abstraktů a titulů článků pomocí platformy AutoGluon dosáhla nejvyšší správnosti (66,5 %), následovaná kombinací TF-IDF termínů a příznaků generovaných LLM (65,3 %). Pro datovou sadu M17+ dosáhl model využívající příznaky generované LLM správnosti 37 %, což překonalo naivní model (18 %) a TF-IDF (34,3 %). Větné vektory dosáhly nejvyšší správnosti (40,8 %), zatímco model AutoGluon trénovaný na textech abstraktů a titulů dosáhl 39,5 %. Příznaky generované LLM zlepšily prediktivní výkon modelů a ukázaly vyšší interpretovatelnost ve srovnání s tradičními bibliometrickými příznaky. Významným omezením je však výpočetní náročnost; generování příznaků pro malé datové sady (2000, 3000 vzorků) vyžaduje desítky hodin na špičkovém hardwaru. |