Video classification based on descriptions generated by large language models
| Thesis title: | Klasifikace videa na základě popisů generovaných velkými jazykovými modely |
|---|---|
| Author: | Koval, Matěj |
| Thesis type: | Bakalářská práce |
| Supervisor: | Kliegr, Tomáš |
| Opponents: | Hrudková, Kateřina |
| Thesis language: | Česky |
| Abstract: | Cílem bakalářské práce je navrhnout a implementovat vysvětlitelný přístup ke klasifikaci videí pomocí popisů generovaných multimodálními velkými jazykovými modely. Byl vytvořen webový systém Media Feature Lab (React + Flask), který v pětifázové pipeline automaticky navrhuje a extrahuje textové atributy z videa pomocí LLM a trénuje nad nimi model RuleKit produkující srozumitelná pravidla. Pipeline byla ověřena na datasetu MediaEval Predicting Video Memorability a doplňkově na medicínském datasetu pro detekci zánětu plic. Na datasetu Movie Memorability se nepodařilo prokázat statisticky významné zlepšení oproti referenčním baseline modelům; hlavním přínosem je demonstrace realizovatelnosti celého end-to-end procesu a interpretovatelnost výstupů. |
| Keywords: | RuleKit; video memorability; vysvětlitelná AI; velké jazykové modely; multimodální LLM; MediaEval |
| Thesis title: | Video classification based on descriptions generated by large language models |
|---|---|
| Author: | Koval, Matěj |
| Thesis type: | Bachelor thesis |
| Supervisor: | Kliegr, Tomáš |
| Opponents: | Hrudková, Kateřina |
| Thesis language: | Česky |
| Abstract: | The goal of the thesis is to design and implement an explainable approach to video classification using descriptions generated by multimodal large language models. A web system Media Feature Lab (React + Flask) was developed, which in a five-phase pipeline automatically proposes and extracts textual attributes from videos via LLM and trains a RuleKit model that produces human-interpretable rules. The pipeline was validated on the MediaEval Predicting Video Memorability dataset and additionally on a medical dataset for pneumonia detection. On the Movie Memorability dataset, no statistically significant improvement over reference baselinemodelswasdemonstrated;themaincontributionistheproof-of-conceptdemonstration of the complete end-to-end process and the interpretability of its outputs. |
| Keywords: | large language models; multimodal LLM; explainable AI; RuleKit; video memorability; MediaEval |
Information about study
| Study programme: | Aplikovaná informatika |
|---|---|
| Type of study programme: | Bakalářský studijní program |
| Assigned degree: | Bc. |
| Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
| Faculty: | Faculty of Informatics and Statistics |
| Department: | Department of Information and Knowledge Engineering |
Information on submission and defense
| Date of assignment: | 2. 10. 2025 |
|---|---|
| Date of submission: | 11. 5. 2026 |
| Date of defense: | 19. 6. 2026 |
| Identifier in the InSIS system: | https://insis.vse.cz/zp/93792/podrobnosti |