Utilizing Vector Databases for Similarity Search
Thesis title: | Utilizing Vector Databases for Similarity Search |
---|---|
Author: | Bártová, Kateřina |
Thesis type: | Bachelor thesis |
Supervisor: | Víta, Martin |
Opponents: | Svátek, Vojtěch |
Thesis language: | English |
Abstract: | This bachelor’s thesis explores applications of two vector database systems, ChromaDB and Qdrant, with focus on their comparison from a user’s perspective and the effectiveness of specific text representations and distance metrics in similarity search. In order to perform the comparison, three datasets are utilised, one from the aviation domain and two from research and development projects. The initial phase involves familiarising with TF-IDF representation, MiniLM-L6 and SPECTER models. Standard similarity metrics and evaluation metrics, rank-biased overlap, and precision at k, are introduced. The datasets are pre-processed and then used to fill the databases. The similarity search evaluation is done concerning humansorted documents based on their similarity to the query. Based on experiments with various representations and distance metrics, those created by the MiniLM-L6 model emerge as the best representation; when changing the distance metric, the results do not differ significantly. |
Keywords: | embedding; similarity search; vector database; ChromaDB; Qdrant |
Thesis title: | Použití vektorových databází pro podobnostní vyshedávání |
---|---|
Author: | Bártová, Kateřina |
Thesis type: | Bakalářská práce |
Supervisor: | Víta, Martin |
Opponents: | Svátek, Vojtěch |
Thesis language: | English |
Abstract: | Tato bakalářská práce zkoumá aplikace vektorových databázových systémů ChromaDB a QDrant, se zaměřením na jejich srovnání z pohledu uživatele a také na účinnost konkrétních textových reprezentací a metrik vzdálenosti při vyhledávání podobností. Pro provedení srovnání jsou použity tři datové sady, jedna z oblasti letectví a dvě z výzkumných a vývojových projektů. Počáteční fáze zahrnuje seznámení se s reprezentací TF-IDF, modely MiniLM-L6 a SPECTER. Jsou představeny běžné metriky podobnosti a také metriky hodnocení rank-biased overlap a precision at k. Datové sady jsou předzpracovány a poté použity k naplnění databází. Evaluace podobnostního vyhledávání se provádí s ohledem na dokumenty seřazené člověkem na základě jejich podobnosti s dotazem. Na základě experimentů s různými reprezenracemi a metrikami vzdálenosti vychází jako nejlepší reprezentace ty, vytvořené modelem MiniLm-L6, při změně vzdálenostní metriky se výsledky příliš neliší. |
Keywords: | ChromaDB; Qdrant; podobnostní vyhledávání; vektorová databáze; slovní vnoření |
Information about study
Study programme: | Data Analytics |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Mathematics |
Information on submission and defense
Date of assignment: | 24. 5. 2024 |
---|---|
Date of submission: | 12. 5. 2025 |
Date of defense: | 18. 6. 2025 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/88506/podrobnosti |