Návrh vyhledávacího systému pro moderní potřeby

Název práce: Návrh vyhledávacího systému pro moderní potřeby
Autor(ka) práce: Maršálek, Tomáš
Typ práce: Diplomová práce
Vedoucí práce: Palovská, Helena
Oponenti práce: Strossa, Petr
Jazyk práce: Česky
Abstrakt:
V této práci tvrdím, že oblast textového vyhledávání se obecně soustředí na dlouhé textové dokumenty, přičemž vzrůstá potřeba po efektivním vyhledávacím systému soustředícím se na krátký text, na který jsou kladeny odlišné požadavky. Díky tomuto zmenšení objemu prohledávaných dat se stanou některé algoritmické techniky výpočetně dostupnější. Přesnější zaměření této práce je na techniky přibližného a prefixového vyhledávání a ohodnocovacích metod založených čistě na textové shodě, protože statistické metody na krátkém textu ztrácejí význam. Na základě nich byl vytvořen jednoduchý prototyp vyhledávacího systému, jehož vlastnosti jsou zde demonstrovány na několika vyhledávacích případech a porovnány se dvěma dalšími open source vyhledávacími systémy, které reprezentují doporučovaná řešení pro problém vyhledávání v krátkém textu v dnešní době. Dle výsledků porovnání lze usoudit proveditelnost navrhovaného řešení z pohledu vyhledávacích schopnosti i výkonu. Na základě toho je pak představeno několik možností pro budoucí vývoj systému.
Klíčová slova: blízkost; invertovaný index; přibližné vyhledávání v textu; prefixové vyhledávání; autocomplete; poloinvertovaný index; vyhledávání s tolerancí chyb; search-as-you-type; hybridní index
Název práce: Design of search engine for modern needs
Autor(ka) práce: Maršálek, Tomáš
Typ práce: Diploma thesis
Vedoucí práce: Palovská, Helena
Oponenti práce: Strossa, Petr
Jazyk práce: Česky
Abstrakt:
In this work I argue that field of text search has focused mostly on long text documents, but there is a growing need for efficient short text search, which has different user expectations. Due to this reduced data set size requirements different algorithmic techniques become more computationally affordable. The focus of this work is on approximate and prefix search and purely text based ranking methods, which are needed due to lower precision of text statistics on short text. A basic prototype search engine has been created using the researched techniques. Its capabilities were demonstrated on example search scenarios and the implementation was compared to two other open source systems representing currently recommended approaches for short text search problem. The results show feasibility of the implemented prototype regarding both user expectations and performance. Several options of future direction of the system are proposed.
Klíčová slova: hybrid index; error tolerant text search; inverted index; search-as-you-type; autocomplete; proximity search; half-inverted index; approximate text search; prefix search

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informační systémy a technologie
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 1. 6. 2016
Datum podání práce: 1. 12. 2016
Datum obhajoby: 1. 2. 2017
Identifikátor v systému InSIS: https://insis.vse.cz/zp/58483/podrobnosti

Soubory ke stažení

    Poslední aktualizace: