Fine-tuning malého LLM modelu pre úlohu hľadania častých itemsetov
Autor(ka) práce:
Slivka, Oliver
Typ práce:
Bakalářská práce
Vedoucí práce:
Kliegr, Tomáš
Oponenti práce:
Hrudková, Kateřina
Jazyk práce:
Slovensky
Abstrakt:
Predkladaná bakalárska práca sa zameriava na jemné doladenie jazykového modelu Qwen2.5-7B pre úlohu hľadania častých itemsetov v tabuľkových dátach. Ako deterministické referenčné riešenie je použitý algoritmus Apriori. V rámci práce bol navrhnutý a implementovaný modulárny experimentálny pipeline, ktorý zahŕňa generovanie syntetických datasetov, výpočet referenčných výsledkov pomocou Apriori, extrakciu itemsetov jazykovým modelom, validáciu výstupov a ukladanie výsledkov do databázy SQLite. Tréningové dáta obsahovali príklady pre supervised fine-tuning s Chain-of-Thought zdôvodnením a preferenčné páry DPO získané zo skutočných chýb komerčných modelov. Práca porovnáva viaceré tréningové iterácie, základné komerčné modely a diagnostickú metodológiu LLM Council. Výsledky ukazujú, že jemné doladenie zlepšuje formálnu štruktúru výstupu, ale úloha presnej kombinatorickej enumerácie zostáva pre autoregresívny jazykový model náročná. Práca tak hodnotí možnosti a limity použitia malého LLM modelu pre hľadanie častých itemsetov bez priameho použitia algoritmických nástrojov počas inferencie.
Fine-tuning malého LLM modelu pro úlohu hledání častých itemsetů
Autor(ka) práce:
Slivka, Oliver
Typ práce:
Bakalářská práce
Vedoucí práce:
Kliegr, Tomáš
Oponenti práce:
Hrudková, Kateřina
Jazyk práce:
Slovensky
Abstrakt:
Tato bakalářská práce se zaměřuje na jemné doladění jazykového modelu Qwen2.5-7B pro úlohu hledání častých itemsetů v tabulkových datech. Jako deterministické referenční řešení je použit algoritmus Apriori. V rámci práce byl navržen a implementován modulární experimentální pipeline zahrnující generování syntetických datasetů, výpočet referenčních výsledků pomocí Apriori, extrakci itemsetů jazykovým modelem, validaci výstupů a ukládání výsledků do databáze SQLite. Tréninková data obsahovala příklady pro supervised fine-tuning s Chain-of-Thought zdůvodněním a preferenční páry DPO získané ze skutečných chyb komerčních modelů. Práce porovnává několik tréninkových iterací, základní komerční modely a diagnostickou metodologii LLM Council. Výsledky ukazují, že jemné doladění zlepšuje formální strukturu výstupu, ale úloha přesné kombinatorické enumerace zůstává pro autoregresivní jazykový model obtížná. Práce tak hodnotí možnosti a limity použití malého LLM modelu pro hledání častých itemsetů bez přímého použití algoritmických nástrojů během inference.
Fine-tuning a Small LLM for Frequent Itemset Mining
Autor(ka) práce:
Slivka, Oliver
Typ práce:
Bachelor thesis
Vedoucí práce:
Kliegr, Tomáš
Oponenti práce:
Hrudková, Kateřina
Jazyk práce:
Slovensky
Abstrakt:
This bachelor thesis focuses on fine-tuning the Qwen2.5-7B language model for the task of frequent itemset mining in tabular data. The Apriori algorithm is used as a deterministic reference solution. The thesis designs and implements a modular experimental pipeline covering synthetic dataset generation, Apriori-based ground-truth computation, LLM-based itemset extraction, output validation, and result persistence in an SQLite database. The training data include supervised fine-tuning examples with Chain-of-Thought reasoning and DPO preference pairs derived from real failures of commercial models. The thesis compares several training iterations, commercial baseline models, and a diagnostic methodology called LLM Council. The results show that fine-tuning improves the formal structure of the generated output, but exact combinatorial enumeration remains difficult for an autoregressive language model. The thesis therefore evaluates both the potential and the limitations of using a small LLM for frequent itemset mining without directly using algorithmic tools during inference.
Klíčová slova:
language model fine-tuning; frequent itemsets; Apriori algorithm