Video classification based on descriptions generated by large language models

Thesis title: Klasifikace videa na základě popisů generovaných velkými jazykovými modely
Author: Koval, Matěj
Thesis type: Bakalářská práce
Supervisor: Kliegr, Tomáš
Opponents: Hrudková, Kateřina
Thesis language: Česky
Abstract:
Cílem bakalářské práce je navrhnout a implementovat vysvětlitelný přístup ke klasifikaci videí pomocí popisů generovaných multimodálními velkými jazykovými modely. Byl vytvořen webový systém Media Feature Lab (React + Flask), který v pětifázové pipeline automaticky navrhuje a extrahuje textové atributy z videa pomocí LLM a trénuje nad nimi model RuleKit produkující srozumitelná pravidla. Pipeline byla ověřena na datasetu MediaEval Predicting Video Memorability a doplňkově na medicínském datasetu pro detekci zánětu plic. Na datasetu Movie Memorability se nepodařilo prokázat statisticky významné zlepšení oproti referenčním baseline modelům; hlavním přínosem je demonstrace realizovatelnosti celého end-to-end procesu a interpretovatelnost výstupů.
Keywords: RuleKit; video memorability; vysvětlitelná AI; velké jazykové modely; multimodální LLM; MediaEval
Thesis title: Video classification based on descriptions generated by large language models
Author: Koval, Matěj
Thesis type: Bachelor thesis
Supervisor: Kliegr, Tomáš
Opponents: Hrudková, Kateřina
Thesis language: Česky
Abstract:
The goal of the thesis is to design and implement an explainable approach to video classification using descriptions generated by multimodal large language models. A web system Media Feature Lab (React + Flask) was developed, which in a five-phase pipeline automatically proposes and extracts textual attributes from videos via LLM and trains a RuleKit model that produces human-interpretable rules. The pipeline was validated on the MediaEval Predicting Video Memorability dataset and additionally on a medical dataset for pneumonia detection. On the Movie Memorability dataset, no statistically significant improvement over reference baselinemodelswasdemonstrated;themaincontributionistheproof-of-conceptdemonstration of the complete end-to-end process and the interpretability of its outputs.
Keywords: large language models; multimodal LLM; explainable AI; RuleKit; video memorability; MediaEval

Information about study

Study programme: Aplikovaná informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 2. 10. 2025
Date of submission: 11. 5. 2026
Date of defense: 19. 6. 2026
Identifier in the InSIS system: https://insis.vse.cz/zp/93792/podrobnosti

Files for download

    Last update: