Design of search engine for modern needs

Thesis title: Návrh vyhledávacího systému pro moderní potřeby
Author: Maršálek, Tomáš
Thesis type: Diplomová práce
Supervisor: Palovská, Helena
Opponents: Strossa, Petr
Thesis language: Česky
Abstract:
V této práci tvrdím, že oblast textového vyhledávání se obecně soustředí na dlouhé textové dokumenty, přičemž vzrůstá potřeba po efektivním vyhledávacím systému soustředícím se na krátký text, na který jsou kladeny odlišné požadavky. Díky tomuto zmenšení objemu prohledávaných dat se stanou některé algoritmické techniky výpočetně dostupnější. Přesnější zaměření této práce je na techniky přibližného a prefixového vyhledávání a ohodnocovacích metod založených čistě na textové shodě, protože statistické metody na krátkém textu ztrácejí význam. Na základě nich byl vytvořen jednoduchý prototyp vyhledávacího systému, jehož vlastnosti jsou zde demonstrovány na několika vyhledávacích případech a porovnány se dvěma dalšími open source vyhledávacími systémy, které reprezentují doporučovaná řešení pro problém vyhledávání v krátkém textu v dnešní době. Dle výsledků porovnání lze usoudit proveditelnost navrhovaného řešení z pohledu vyhledávacích schopnosti i výkonu. Na základě toho je pak představeno několik možností pro budoucí vývoj systému.
Keywords: blízkost; invertovaný index; přibližné vyhledávání v textu; prefixové vyhledávání; autocomplete; poloinvertovaný index; vyhledávání s tolerancí chyb; search-as-you-type; hybridní index
Thesis title: Design of search engine for modern needs
Author: Maršálek, Tomáš
Thesis type: Diploma thesis
Supervisor: Palovská, Helena
Opponents: Strossa, Petr
Thesis language: Česky
Abstract:
In this work I argue that field of text search has focused mostly on long text documents, but there is a growing need for efficient short text search, which has different user expectations. Due to this reduced data set size requirements different algorithmic techniques become more computationally affordable. The focus of this work is on approximate and prefix search and purely text based ranking methods, which are needed due to lower precision of text statistics on short text. A basic prototype search engine has been created using the researched techniques. Its capabilities were demonstrated on example search scenarios and the implementation was compared to two other open source systems representing currently recommended approaches for short text search problem. The results show feasibility of the implemented prototype regarding both user expectations and performance. Several options of future direction of the system are proposed.
Keywords: hybrid index; error tolerant text search; inverted index; search-as-you-type; autocomplete; proximity search; half-inverted index; approximate text search; prefix search

Information about study

Study programme: Aplikovaná informatika/Informační systémy a technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 1. 6. 2016
Date of submission: 1. 12. 2016
Date of defense: 1. 2. 2017
Identifier in the InSIS system: https://insis.vse.cz/zp/58483/podrobnosti

Files for download

    Last update: