Comparison of Selected Efficient Deep Learning Techniques for Convolutional Neural Networks in Classification
Autor(ka) práce:
Phamová, Xuan Vi
Typ práce:
Bachelor thesis
Vedoucí práce:
Zamazal, Ondřej
Oponenti práce:
Vacura, Miroslav
Jazyk práce:
English
Abstrakt:
The deployment of convolutional neural networks (CNNs) on resource-constrained edge devices requires the application of model compression techniques to balance performance, size, and inference time. This thesis investigates three key techniques — weight pruning, quantization, and knowledge distillation — evaluating their impact on CNN performance across various datasets and model architectures. Experimental results show that weight pruning, when applied to simpler custom CNNs, significantly reduces model size while slightly improving accuracy. However, excessive pruning in more complex pretrained models led to a considerable drop in performance, highlighting the need for more advanced strategies in complex architectures. Quantization techniques, particularly Post-Training Quantization (PTQ), proved highly effective in reducing model size by 75-90% and accelerating inference time by up to 1.5-8×, without substantial accuracy degradation. In contrast, Quantization-Aware Training (QAT) offered similar benefits but introduced minor accuracy losses and the risk of overfitting, particularly when applied to larger models like InceptionV3. Knowledge distillation demonstrated strong potential for transferring knowledge from larger teacher models to smaller student models, resulting in improved classification accuracy without increasing model size or inference time. These techniques offer promising solutions for optimizing CNNs, ensuring efficient performance while maintaining competitive accuracy.
Klíčová slova:
convolutional neural networks; deep learning; model compression; pruning; quantization; knowledge distillation; efficient deep learning techniques
Název práce:
Srovnání vybraných efektivních technik hlubokého učení pro konvoluční neuronové sítě v klasifikaci
Autor(ka) práce:
Phamová, Xuan Vi
Typ práce:
Bakalářská práce
Vedoucí práce:
Zamazal, Ondřej
Oponenti práce:
Vacura, Miroslav
Jazyk práce:
English
Abstrakt:
Nasazení konvolučních neuronových sítí (CNN) na zařízení s omezenými výpočetními prostředky vyžaduje použití technik komprese modelů k vyvážení výkonu, velikosti a rychlosti inferenčního zpracování. Tato bakalářská práce zkoumá tři klíčové techniky — prořezávání, kvantizaci a destilaci znalostí — s cílem vyhodnotit jejich dopad na výkon CNN napříč různými datovými sadami a architekturami modelů. Výsledky experimentů ukazují, že prořezávání vah výrazně snižuje velikost modelu a mírně zlepšuje správnost, pokud je aplikováno na jednodušší vlastní CNN modely. Naopak nadměrné prořezávání u složitějších předtrénovaných modelů vede k výraznému poklesu výkonu, což poukazuje na nutnost pokročilejších strategií u komplexních architektur. Kvantizační techniky, zejména kvantizace po trénování (Post-Training Quantization, PTQ), se ukázaly jako vysoce účinné. Snížily velikosti modelu o více než 75-90 % a zrychlily inferenční dobu až o 1,5-8×, aniž by došlo k významnému poklesu správnosti. Naproti tomu kvantizace s ohledem na trénink (Quantization-Aware Training, QAT) nabídla podobné výhody, ale vedla k drobným ztrátám správnosti a riziku přetrénování, zejména při aplikaci na větší modely jako je InceptionV3. Destilace znalostí prokázala silný potenciál pro přenos znalostí z větších modelů učitelů do menších studentských modelů, což vedlo ke zlepšení správnosti klasifikace bez zvýšení velikosti modelu nebo inferenčního času. Tyto techniky nabízejí slibná řešení pro optimalizaci CNN s cílem zajistit efektivní výkon při zachování konkurenceschopné správnosti.