Utilizing Vector Databases for Similarity Search

Thesis title: Utilizing Vector Databases for Similarity Search
Author: Bártová, Kateřina
Thesis type: Bachelor thesis
Supervisor: Víta, Martin
Opponents: Svátek, Vojtěch
Thesis language: English
Abstract:
This bachelor’s thesis explores applications of two vector database systems, ChromaDB and Qdrant, with focus on their comparison from a user’s perspective and the effectiveness of specific text representations and distance metrics in similarity search. In order to perform the comparison, three datasets are utilised, one from the aviation domain and two from research and development projects. The initial phase involves familiarising with TF-IDF representation, MiniLM-L6 and SPECTER models. Standard similarity metrics and evaluation metrics, rank-biased overlap, and precision at k, are introduced. The datasets are pre-processed and then used to fill the databases. The similarity search evaluation is done concerning humansorted documents based on their similarity to the query. Based on experiments with various representations and distance metrics, those created by the MiniLM-L6 model emerge as the best representation; when changing the distance metric, the results do not differ significantly.
Keywords: embedding; similarity search; vector database; ChromaDB; Qdrant
Thesis title: Použití vektorových databází pro podobnostní vyshedávání
Author: Bártová, Kateřina
Thesis type: Bakalářská práce
Supervisor: Víta, Martin
Opponents: Svátek, Vojtěch
Thesis language: English
Abstract:
Tato bakalářská práce zkoumá aplikace vektorových databázových systémů ChromaDB a QDrant, se zaměřením na jejich srovnání z pohledu uživatele a také na účinnost konkrétních textových reprezentací a metrik vzdálenosti při vyhledávání podobností. Pro provedení srovnání jsou použity tři datové sady, jedna z oblasti letectví a dvě z výzkumných a vývojových projektů. Počáteční fáze zahrnuje seznámení se s reprezentací TF-IDF, modely MiniLM-L6 a SPECTER. Jsou představeny běžné metriky podobnosti a také metriky hodnocení rank-biased overlap a precision at k. Datové sady jsou předzpracovány a poté použity k naplnění databází. Evaluace podobnostního vyhledávání se provádí s ohledem na dokumenty seřazené člověkem na základě jejich podobnosti s dotazem. Na základě experimentů s různými reprezenracemi a metrikami vzdálenosti vychází jako nejlepší reprezentace ty, vytvořené modelem MiniLm-L6, při změně vzdálenostní metriky se výsledky příliš neliší.
Keywords: ChromaDB; Qdrant; podobnostní vyhledávání; vektorová databáze; slovní vnoření

Information about study

Study programme: Data Analytics
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Mathematics

Information on submission and defense

Date of assignment: 24. 5. 2024
Date of submission: 12. 5. 2025
Date of defense: 18. 6. 2025
Identifier in the InSIS system: https://insis.vse.cz/zp/88506/podrobnosti

Files for download

    Last update: