Exploration of model distillation technique for efficient deep learning of classification transformers

Thesis title: Průzkum techniky destilace modelu pro efektivní hluboké učení klasifikačních transformerů
Author: Dragoun, Jiří
Thesis type: Diplomová práce
Supervisor: Zamazal, Ondřej
Opponents: Vacura, Miroslav
Thesis language: Česky
Abstract:
Tato diplomová práce se zabývá technikou destilace znalostí pro efektivní hluboké učení klasifikačních transformerů. S rostoucí velikostí a výpočetní náročností moderních neuronových sítí se destilace znalostí stává vhodným nástrojem pro přenos schopností z velkých učitelských modelů do menších a efektivnějších studentů. Tato práce experimentálně ověřuje přínos destilace znalostí a zkoumá, za jakých podmínek dosahuje nejlepších výsledků. V rámci práce byly navrženy a realizovány experimenty s různými typy architektur studentů i učitelů, nad textovými i obrazovými daty, přičemž byla porovnávána výkonnost modelů, jejich velikost a rychlost inference. Výsledky ukazují, že destilace znalostí přináší největší přínos při aplikaci na náhodně inicializované studentské modely, zatímco její efekt při doladění předtrénovaných modelů je omezený. Práce zároveň ukazuje synergické vlivy kombinace destilace a dalších technik zaměřených na efektivitu, jako jsou augmentace dat a předpočítání logitů, které vedou k celkově efektivnějšímu tréninku. Výsledky této práce experimentálně potvrzují přínos destilace znalostí a identifikují její slabá místa a faktory, které zásadně ovlivňují její účinnost.
Keywords: přenos znalostí; efektivita učení; hluboké učení; destilace znalostí; transformery; klasifikace
Thesis title: Exploration of model distillation technique for efficient deep learning of classification transformers
Author: Dragoun, Jiří
Thesis type: Diploma thesis
Supervisor: Zamazal, Ondřej
Opponents: Vacura, Miroslav
Thesis language: Česky
Abstract:
This thesis explores knowledge distillation as a technique for efficient deep learning of classification tasks with transformer based models. With the increasing size and computational demands of modern neural networks, knowledge distillation is becoming an efficient tool for transferring capabilities of larger teacher models into smaller and more efficient students. This work experimentally evaluates the benefits of knowledge distillation and investigates the conditions under which it yields the best results. A series of experiments was designed and conducted using various types of model architectures on both textual and image datasets. The models were compared based on their classification performance, size and inference speed. The results show that knowledge distillation provides the biggest benefit when applied to randomly initialized students, whereas its effect on pre-trained models during fine-tuning is limited. The thesis also demonstrates the synergistic effects of combining distillation with other efficiency focused techniques such as data augmentation and logit precomputation that lead to more efficient model training overall. The experimental results confirm the effectiveness of knowledge distillation while also identifying its limitations and key factors that influence its success.
Keywords: knowledge distillation; knowledge transfer; classification; learning efficiency; deep learning; transformers

Information about study

Study programme: Znalostní a webové technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 30. 10. 2024
Date of submission: 5. 5. 2025
Date of defense: 2025

Files for download

The files will be available after the defense of the thesis.

    Last update: