Návrh vyhledávacího systému pro moderní potřeby
Název práce: | Návrh vyhledávacího systému pro moderní potřeby |
---|---|
Autor(ka) práce: | Maršálek, Tomáš |
Typ práce: | Diplomová práce |
Vedoucí práce: | Palovská, Helena |
Oponenti práce: | Strossa, Petr |
Jazyk práce: | Česky |
Abstrakt: | V této práci tvrdím, že oblast textového vyhledávání se obecně soustředí na dlouhé textové dokumenty, přičemž vzrůstá potřeba po efektivním vyhledávacím systému soustředícím se na krátký text, na který jsou kladeny odlišné požadavky. Díky tomuto zmenšení objemu prohledávaných dat se stanou některé algoritmické techniky výpočetně dostupnější. Přesnější zaměření této práce je na techniky přibližného a prefixového vyhledávání a ohodnocovacích metod založených čistě na textové shodě, protože statistické metody na krátkém textu ztrácejí význam. Na základě nich byl vytvořen jednoduchý prototyp vyhledávacího systému, jehož vlastnosti jsou zde demonstrovány na několika vyhledávacích případech a porovnány se dvěma dalšími open source vyhledávacími systémy, které
reprezentují doporučovaná řešení pro problém vyhledávání v krátkém textu v dnešní době. Dle výsledků porovnání lze usoudit proveditelnost navrhovaného řešení z pohledu
vyhledávacích schopnosti i výkonu. Na základě toho je pak představeno několik možností pro budoucí vývoj systému. |
Klíčová slova: | blízkost; invertovaný index; přibližné vyhledávání v textu; prefixové vyhledávání; autocomplete; poloinvertovaný index; vyhledávání s tolerancí chyb; search-as-you-type; hybridní index |
Název práce: | Design of search engine for modern needs |
---|---|
Autor(ka) práce: | Maršálek, Tomáš |
Typ práce: | Diploma thesis |
Vedoucí práce: | Palovská, Helena |
Oponenti práce: | Strossa, Petr |
Jazyk práce: | Česky |
Abstrakt: | In this work I argue that field of text search has focused mostly on long text documents, but there is a growing need for efficient short text search, which has different user expectations. Due to this reduced data set size requirements different algorithmic techniques become more computationally affordable. The focus of this work is on approximate and prefix search and purely text based ranking methods, which are needed due to lower precision of text statistics on short text. A basic prototype search engine has been created using the researched techniques. Its capabilities were demonstrated
on example search scenarios and the implementation was compared to two other open source systems representing currently recommended approaches for short text search
problem. The results show feasibility of the implemented prototype regarding both user expectations and performance. Several options of future direction of the system are
proposed. |
Klíčová slova: | hybrid index; error tolerant text search; inverted index; search-as-you-type; autocomplete; proximity search; half-inverted index; approximate text search; prefix search |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Informační systémy a technologie |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačních technologií |
Informace o odevzdání a obhajobě
Datum zadání práce: | 1. 6. 2016 |
---|---|
Datum podání práce: | 1. 12. 2016 |
Datum obhajoby: | 1. 2. 2017 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/58483/podrobnosti |