Thesis title: |
Průzkum techniky destilace modelu pro efektivní hluboké učení klasifikačních transformerů |
Author: |
Dragoun, Jiří |
Thesis type: |
Diplomová práce |
Supervisor: |
Zamazal, Ondřej |
Opponents: |
Vacura, Miroslav |
Thesis language: |
Česky |
Abstract: |
Tato diplomová práce se zabývá technikou destilace znalostí pro efektivní hluboké učení klasifikačních transformerů. S rostoucí velikostí a výpočetní náročností moderních neuronových sítí se destilace znalostí stává vhodným nástrojem pro přenos schopností z velkých učitelských modelů do menších a efektivnějších studentů. Tato práce experimentálně ověřuje přínos destilace znalostí a zkoumá, za jakých podmínek dosahuje nejlepších výsledků. V rámci práce byly navrženy a realizovány experimenty s různými typy architektur studentů i učitelů, nad textovými i obrazovými daty, přičemž byla porovnávána výkonnost modelů, jejich velikost a rychlost inference. Výsledky ukazují, že destilace znalostí přináší největší přínos při aplikaci na náhodně inicializované studentské modely, zatímco její efekt při doladění předtrénovaných modelů je omezený. Práce zároveň ukazuje synergické vlivy kombinace destilace a dalších technik zaměřených na efektivitu, jako jsou augmentace dat a předpočítání logitů, které vedou k celkově efektivnějšímu tréninku. Výsledky této práce experimentálně potvrzují přínos destilace znalostí a identifikují její slabá místa a faktory, které zásadně ovlivňují její účinnost. |
Keywords: |
přenos znalostí; efektivita učení; hluboké učení; destilace znalostí; transformery; klasifikace |
Thesis title: |
Exploration of model distillation technique for efficient deep learning of classification transformers |
Author: |
Dragoun, Jiří |
Thesis type: |
Diploma thesis |
Supervisor: |
Zamazal, Ondřej |
Opponents: |
Vacura, Miroslav |
Thesis language: |
Česky |
Abstract: |
This thesis explores knowledge distillation as a technique for efficient deep learning of classification tasks with transformer based models. With the increasing size and computational demands of modern neural networks, knowledge distillation is becoming an efficient tool for transferring capabilities of larger teacher models into smaller and more efficient students. This work experimentally evaluates the benefits of knowledge distillation and investigates the conditions under which it yields the best results. A series of experiments was designed and conducted using various types of model architectures on both textual and image datasets. The models were compared based on their classification performance, size and inference speed. The results show that knowledge distillation provides the biggest benefit when applied to randomly initialized students, whereas its effect on pre-trained models during fine-tuning is limited. The thesis also demonstrates the synergistic effects of combining distillation with other efficiency focused techniques such as data augmentation and logit precomputation that lead to more efficient model training overall. The experimental results confirm the effectiveness of knowledge distillation while also identifying its limitations and key factors that influence its success. |
Keywords: |
knowledge distillation; knowledge transfer; classification; learning efficiency; deep learning; transformers |
Information about study
Study programme: |
Znalostní a webové technologie |
Type of study programme: |
Magisterský studijní program |
Assigned degree: |
Ing. |
Institutions assigning academic degree: |
Vysoká škola ekonomická v Praze |
Faculty: |
Faculty of Informatics and Statistics |
Department: |
Department of Information and Knowledge Engineering |
Information on submission and defense
Date of assignment: |
30. 10. 2024 |
Date of submission: |
5. 5. 2025 |
Date of defense: |
2025 |
Files for download
The files will be available after the defense of the thesis.