Použití vektorových databází pro podobnostní vyshedávání
Název práce: | Utilizing Vector Databases for Similarity Search |
---|---|
Autor(ka) práce: | Bártová, Kateřina |
Typ práce: | Bachelor thesis |
Vedoucí práce: | Víta, Martin |
Oponenti práce: | Svátek, Vojtěch |
Jazyk práce: | English |
Abstrakt: | This bachelor’s thesis explores applications of two vector database systems, ChromaDB and Qdrant, with focus on their comparison from a user’s perspective and the effectiveness of specific text representations and distance metrics in similarity search. In order to perform the comparison, three datasets are utilised, one from the aviation domain and two from research and development projects. The initial phase involves familiarising with TF-IDF representation, MiniLM-L6 and SPECTER models. Standard similarity metrics and evaluation metrics, rank-biased overlap, and precision at k, are introduced. The datasets are pre-processed and then used to fill the databases. The similarity search evaluation is done concerning humansorted documents based on their similarity to the query. Based on experiments with various representations and distance metrics, those created by the MiniLM-L6 model emerge as the best representation; when changing the distance metric, the results do not differ significantly. |
Klíčová slova: | embedding; similarity search; vector database; ChromaDB; Qdrant |
Název práce: | Použití vektorových databází pro podobnostní vyshedávání |
---|---|
Autor(ka) práce: | Bártová, Kateřina |
Typ práce: | Bakalářská práce |
Vedoucí práce: | Víta, Martin |
Oponenti práce: | Svátek, Vojtěch |
Jazyk práce: | English |
Abstrakt: | Tato bakalářská práce zkoumá aplikace vektorových databázových systémů ChromaDB a QDrant, se zaměřením na jejich srovnání z pohledu uživatele a také na účinnost konkrétních textových reprezentací a metrik vzdálenosti při vyhledávání podobností. Pro provedení srovnání jsou použity tři datové sady, jedna z oblasti letectví a dvě z výzkumných a vývojových projektů. Počáteční fáze zahrnuje seznámení se s reprezentací TF-IDF, modely MiniLM-L6 a SPECTER. Jsou představeny běžné metriky podobnosti a také metriky hodnocení rank-biased overlap a precision at k. Datové sady jsou předzpracovány a poté použity k naplnění databází. Evaluace podobnostního vyhledávání se provádí s ohledem na dokumenty seřazené člověkem na základě jejich podobnosti s dotazem. Na základě experimentů s různými reprezenracemi a metrikami vzdálenosti vychází jako nejlepší reprezentace ty, vytvořené modelem MiniLm-L6, při změně vzdálenostní metriky se výsledky příliš neliší. |
Klíčová slova: | ChromaDB; Qdrant; podobnostní vyhledávání; vektorová databáze; slovní vnoření |
Informace o studiu
Studijní program / obor: | Data Analytics |
---|---|
Typ studijního programu: | Bakalářský studijní program |
Přidělovaná hodnost: | Bc. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra matematiky |
Informace o odevzdání a obhajobě
Datum zadání práce: | 24. 5. 2024 |
---|---|
Datum podání práce: | 12. 5. 2025 |
Datum obhajoby: | 18. 6. 2025 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/88506/podrobnosti |