Dotazování do OLAP kostky v přirozeném jazyce: Porovnání dotazování pomocí LLM bez využití a s využitím vektorové databáze

Název práce: Dotazování do OLAP kostky v přirozeném jazyce: Porovnání dotazování pomocí LLM bez využití a s využitím vektorové databáze
Autor(ka) práce: Maličkay, Jakub
Typ práce: Bakalářská práce
Vedoucí práce: Kučera, Jan
Oponenti práce: Staněk, Štěpán
Jazyk práce: Česky
Abstrakt:
Tato bakalářská práce se zabývá dotazováním do OLAP kostky pomocí přirozeného jazyka s využitím velkých jazykových modelů. Zaměřuje se na porovnání dvou přístupů k určení rele- vantních dimenzí a měr potřebných pro sestavení analytického dotazu. První přístup využívá plný kontext metadat, který je jazykovému modelu předán bez předchozího výběru, zatímco druhý přístup využívá vektorové vyhledávání pro předvýběr relevantních metadat. Pro účely porovnání byl navržen a implementován experimentální prototyp, který zpraco- vává uživatelský dotaz v přirozeném jazyce, vybírá relevantní metadata, generuje odpovídající MDX dotaz a vrací výslednou odpověď. Experimenty byly realizovány nad OLAP kostkou vy- tvořenou nad databází Adventure Works 2019. Vyhodnocení probíhalo na základě správnosti výběru metadat, správnosti výsledné odpovědi a časové náročnosti zpracování. Výsledky v rámci provedeného experimentu naznačují, že retrieval-based přístup poskytuje výhodnější kompromis mezi kvalitou výsledků a časovou náročností, zejména při vyšším zatí- žení systému. Výsledky dále naznačují, že způsob předání kontextu jazykovému modelu může mít významný vliv na praktickou použitelnost řešení.
Klíčová slova: OLAP kostka; velké jazykové modely; retrieval-based přístup
Název práce: Querying an OLAP Cube in Natural Language: Comparison of Querying with LLMs Without and With the Use of a Vector Database
Autor(ka) práce: Maličkay, Jakub
Typ práce: Bachelor thesis
Vedoucí práce: Kučera, Jan
Oponenti práce: Staněk, Štěpán
Jazyk práce: Česky
Abstrakt:
This bachelor thesis focuses on querying OLAP cubes using natural language with the support of large language models. The main objective is to compare two approaches to identifying rele- vant dimensions and measures required for constructing analytical queries. The first approach relies on providing the full metadata context to the language model without prior filtering, while the second approach utilizes vector-based retrieval to preselect relevant metadata. An experimental prototype was designed and implemented to process natural language que- ries, select relevant metadata, generate corresponding MDX queries, and return final answers. The experiments were conducted on an OLAP cube built on the Adventure Works 2019 da- tabase. The evaluation was based on the correctness of metadata selection, correctness of the final answer, and processing time. The results of the conducted experiment indicate that the retrieval-based approach provides a more favorable trade-off between result quality and processing time, especially under higher system load. The results indicate that the way context is provided to the language model may significantly affect the practical usability of the solution.
Klíčová slova: OLAP cube; retrieval-based approach; large language models

Informace o studiu

Studijní program / obor: Data Analytics
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 6. 11. 2025
Datum podání práce: 10. 5. 2026
Datum obhajoby: 2026

Soubory ke stažení

Soubory budou k dispozici až po obhajobě práce.

    Poslední aktualizace: