Použití vektorových databází pro podobnostní vyshedávání

Název práce: Utilizing Vector Databases for Similarity Search
Autor(ka) práce: Bártová, Kateřina
Typ práce: Bachelor thesis
Vedoucí práce: Víta, Martin
Oponenti práce: Svátek, Vojtěch
Jazyk práce: English
Abstrakt:
This bachelor’s thesis explores applications of two vector database systems, ChromaDB and Qdrant, with focus on their comparison from a user’s perspective and the effectiveness of specific text representations and distance metrics in similarity search. In order to perform the comparison, three datasets are utilised, one from the aviation domain and two from research and development projects. The initial phase involves familiarising with TF-IDF representation, MiniLM-L6 and SPECTER models. Standard similarity metrics and evaluation metrics, rank-biased overlap, and precision at k, are introduced. The datasets are pre-processed and then used to fill the databases. The similarity search evaluation is done concerning humansorted documents based on their similarity to the query. Based on experiments with various representations and distance metrics, those created by the MiniLM-L6 model emerge as the best representation; when changing the distance metric, the results do not differ significantly.
Klíčová slova: embedding; similarity search; vector database; ChromaDB; Qdrant
Název práce: Použití vektorových databází pro podobnostní vyshedávání
Autor(ka) práce: Bártová, Kateřina
Typ práce: Bakalářská práce
Vedoucí práce: Víta, Martin
Oponenti práce: Svátek, Vojtěch
Jazyk práce: English
Abstrakt:
Tato bakalářská práce zkoumá aplikace vektorových databázových systémů ChromaDB a QDrant, se zaměřením na jejich srovnání z pohledu uživatele a také na účinnost konkrétních textových reprezentací a metrik vzdálenosti při vyhledávání podobností. Pro provedení srovnání jsou použity tři datové sady, jedna z oblasti letectví a dvě z výzkumných a vývojových projektů. Počáteční fáze zahrnuje seznámení se s reprezentací TF-IDF, modely MiniLM-L6 a SPECTER. Jsou představeny běžné metriky podobnosti a také metriky hodnocení rank-biased overlap a precision at k. Datové sady jsou předzpracovány a poté použity k naplnění databází. Evaluace podobnostního vyhledávání se provádí s ohledem na dokumenty seřazené člověkem na základě jejich podobnosti s dotazem. Na základě experimentů s různými reprezenracemi a metrikami vzdálenosti vychází jako nejlepší reprezentace ty, vytvořené modelem MiniLm-L6, při změně vzdálenostní metriky se výsledky příliš neliší.
Klíčová slova: ChromaDB; Qdrant; podobnostní vyhledávání; vektorová databáze; slovní vnoření

Informace o studiu

Studijní program / obor: Data Analytics
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra matematiky

Informace o odevzdání a obhajobě

Datum zadání práce: 24. 5. 2024
Datum podání práce: 12. 5. 2025
Datum obhajoby: 18. 6. 2025
Identifikátor v systému InSIS: https://insis.vse.cz/zp/88506/podrobnosti

Soubory ke stažení

    Poslední aktualizace: