Průzkum techniky destilace modelu pro efektivní hluboké učení klasifikačních transformerů
Autor(ka) práce:
Dragoun, Jiří
Typ práce:
Diplomová práce
Vedoucí práce:
Zamazal, Ondřej
Oponenti práce:
Vacura, Miroslav
Jazyk práce:
Česky
Abstrakt:
Tato diplomová práce se zabývá technikou destilace znalostí pro efektivní hluboké učení klasifikačních transformerů. S rostoucí velikostí a výpočetní náročností moderních neuronových sítí se destilace znalostí stává vhodným nástrojem pro přenos schopností z velkých učitelských modelů do menších a efektivnějších studentů. Tato práce experimentálně ověřuje přínos destilace znalostí a zkoumá, za jakých podmínek dosahuje nejlepších výsledků. V rámci práce byly navrženy a realizovány experimenty s různými typy architektur studentů i učitelů, nad textovými i obrazovými daty, přičemž byla porovnávána výkonnost modelů, jejich velikost a rychlost inference. Výsledky ukazují, že destilace znalostí přináší největší přínos při aplikaci na náhodně inicializované studentské modely, zatímco její efekt při doladění předtrénovaných modelů je omezený. Práce zároveň ukazuje synergické vlivy kombinace destilace a dalších technik zaměřených na efektivitu, jako jsou augmentace dat a předpočítání logitů, které vedou k celkově efektivnějšímu tréninku. Výsledky této práce experimentálně potvrzují přínos destilace znalostí a identifikují její slabá místa a faktory, které zásadně ovlivňují její účinnost.
Exploration of model distillation technique for efficient deep learning of classification transformers
Autor(ka) práce:
Dragoun, Jiří
Typ práce:
Diploma thesis
Vedoucí práce:
Zamazal, Ondřej
Oponenti práce:
Vacura, Miroslav
Jazyk práce:
Česky
Abstrakt:
This thesis explores knowledge distillation as a technique for efficient deep learning of classification tasks with transformer based models. With the increasing size and computational demands of modern neural networks, knowledge distillation is becoming an efficient tool for transferring capabilities of larger teacher models into smaller and more efficient students. This work experimentally evaluates the benefits of knowledge distillation and investigates the conditions under which it yields the best results. A series of experiments was designed and conducted using various types of model architectures on both textual and image datasets. The models were compared based on their classification performance, size and inference speed. The results show that knowledge distillation provides the biggest benefit when applied to randomly initialized students, whereas its effect on pre-trained models during fine-tuning is limited. The thesis also demonstrates the synergistic effects of combining distillation with other efficiency focused techniques such as data augmentation and logit precomputation that lead to more efficient model training overall. The experimental results confirm the effectiveness of knowledge distillation while also identifying its limitations and key factors that influence its success.
Klíčová slova:
knowledge distillation; knowledge transfer; classification; learning efficiency; deep learning; transformers