Video classification based on descriptions generated by large language models

Česky
English

Thesis title:	Klasifikace videa na základě popisů generovaných velkými jazykovými modely
Author:	Koval, Matěj
Thesis type:	Bakalářská práce
Supervisor:	Kliegr, Tomáš
Opponents:	Hrudková, Kateřina
Thesis language:	Česky
Abstract:	Cílem bakalářské práce je navrhnout a implementovat vysvětlitelný přístup ke klasifikaci videí pomocí popisů generovaných multimodálními velkými jazykovými modely. Byl vytvořen webový systém Media Feature Lab (React + Flask), který v pětifázové pipeline automaticky navrhuje a extrahuje textové atributy z videa pomocí LLM a trénuje nad nimi model RuleKit produkující srozumitelná pravidla. Pipeline byla ověřena na datasetu MediaEval Predicting Video Memorability a doplňkově na medicínském datasetu pro detekci zánětu plic. Na datasetu Movie Memorability se nepodařilo prokázat statisticky významné zlepšení oproti referenčním baseline modelům; hlavním přínosem je demonstrace realizovatelnosti celého end-to-end procesu a interpretovatelnost výstupů.
Keywords:	RuleKit; video memorability; vysvětlitelná AI; velké jazykové modely; multimodální LLM; MediaEval

Thesis title:	Video classification based on descriptions generated by large language models
Author:	Koval, Matěj
Thesis type:	Bachelor thesis
Supervisor:	Kliegr, Tomáš
Opponents:	Hrudková, Kateřina
Thesis language:	Česky
Abstract:	The goal of the thesis is to design and implement an explainable approach to video classification using descriptions generated by multimodal large language models. A web system Media Feature Lab (React + Flask) was developed, which in a five-phase pipeline automatically proposes and extracts textual attributes from videos via LLM and trains a RuleKit model that produces human-interpretable rules. The pipeline was validated on the MediaEval Predicting Video Memorability dataset and additionally on a medical dataset for pneumonia detection. On the Movie Memorability dataset, no statistically significant improvement over reference baselinemodelswasdemonstrated;themaincontributionistheproof-of-conceptdemonstration of the complete end-to-end process and the interpretability of its outputs.
Keywords:	large language models; multimodal LLM; explainable AI; RuleKit; video memorability; MediaEval

Information about study

Study programme:	Aplikovaná informatika
Type of study programme:	Bakalářský studijní program
Assigned degree:	Bc.
Institutions assigning academic degree:	Vysoká škola ekonomická v Praze
Faculty:	Faculty of Informatics and Statistics
Department:	Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment:	2. 10. 2025
Date of submission:	11. 5. 2026
Date of defense:	19. 6. 2026
Identifier in the InSIS system:	https://insis.vse.cz/zp/93792/podrobnosti

Files for download

Main text
93792_kovm23.pdf, 1.6 MB Download

Opponent's review
90681_hruk03.pdf, 123.7 kB Download

Supervisor's review
93792_klit01.pdf, 133 kB Download