Options of automated categorization of contracts
Thesis title: | Možnosti automatizovanej kategorizácie kontraktov |
---|---|
Author: | Bereš, Miroslav |
Thesis type: | Bachelor thesis |
Supervisor: | Jelínek, Ivan |
Opponents: | Oškera, Radek |
Thesis language: | Slovensky |
Abstract: | Objektom záujmu mojej bakalárskej práce je automatická kategorizácia. Hlavným cieľom je preskúmanie súčasných prístupov k automatickej kategorizácii, návrh metodiky a vykonanie experimentu, v ktorom sa sleduje úspešnosť kategorizovania kontraktov ve-rejnej správy s využitím strojového učenia. Bakalárska práca je rozdelená do dvoch hlavných častí. Prvá časť je venovaná teórii, ktorá približuje a vysvetľuje danú problematiku. Takisto sú v tejto časti popísané súčasné prístupy k automatickej kategorizácii. Druhá časť je zameraná na navrhnutie metodiky experimentu a jeho prevedenie, počas ktorého sa sleduje úspešnosť automatického kategorizovania kontraktov. V priebehu experimentu sú vytvorené modely, ktoré sa v konečnom dôsledku aplikujú na kontrolnú skupinu. Výstupom sú rozkategorizované dokumenty, pri ktorých sa sleduje úspešnosť ich kategorizácie. Za týmto účelom je v práci použitý program Apache OpenNLP. Teoretická časť a návrh metodiky experimentu je vypracovaná na základe štúdia zahraničnej odbornej literatúry primárne získanej z online elektronických a informačných zdrojov. |
Keywords: | Apache OpenNLP; kategorizácia; spracovanie textu; strojové učenie; dolovanie z textu; verejná správa; klasifikácia |
Thesis title: | Možnosti automatizované kategorizace kontraktů |
---|---|
Author: | Bereš, Miroslav |
Thesis type: | Bakalářská práce |
Supervisor: | Jelínek, Ivan |
Opponents: | Oškera, Radek |
Thesis language: | Slovensky |
Abstract: | Objektem zájmu mé bakalářské práce je automatická kategorizace. Hlavním cílem je přezkoumání současných přístupů k automatické kategorizaci, návrh metodiky a provedení experimentu, ve kterém se sleduje úspěšnost kategorizovaných kontraktů veřejné zprávy s využitím strojového učení. Bakalářská práce je rozdělena do dvou hlavních částí. První část je věnována teorii, která přibližuje a vysvětluje danou problematiku. Rovněž jsou v této části popsány současné přístupy k automatické kategorizaci. Druhá část je zaměřena na navržení metodiky experimentu a jeho provedení, během kterého se sleduje úspěšnost automatické kategorizace kontraktů. V průběhu experimentu jsou vytvořeny modely, které se v konečném důsledku aplikují na kontrolní skupinu. Výstupem jsou rozkategorizované dokumenty, při kterých se sleduje úspěšnost jejich kategorizace. Za tímto účelem je v práci použit program Apache OpenNLP. Teoretická část a návrh metodiky experimentu je vypracována na základě studia zahraniční odborné literatury primárně získané z online elektronických a informačních zdrojů. |
Keywords: | strojové učení; zpracování textu; klasifikace; Apache OpenNLP; dolování z textu; kategorizace; veřejná správa |
Thesis title: | Options of automated categorization of contracts |
---|---|
Author: | Bereš, Miroslav |
Thesis type: | Bachelor thesis |
Supervisor: | Jelínek, Ivan |
Opponents: | Oškera, Radek |
Thesis language: | Slovensky |
Abstract: | My bachelor thesis is focused on automatic categorization. The main goal is to examine actual approaches in automatic categorization, propose methodology for an experiment and perform the experiment. The experiment is done in order to measure success rate of automatic categorization with use of machine learning. It is performed on contracts obtained from public administration's web pages. The bachelor is divided into two parts, theoretical part and the experiment. First one focuses on analyzing theory which explains the subject matter, there are also described current approaches in automatic categorization. Second part describes methodology proposal of the experiment and performing of the experiment. During the process of the experiment, there are created models that are applied on control group. The experiment's outputs are categorized documents. These documents are used to monitor the success rate of automatic categorization. In order to measure the success rate, there is software called Apache OpenNLP used in this experiment. The theoretical part and proposal of the methodology are written based on studying foreign professional literature, mostly obtained from electronic and information sources. |
Keywords: | machine learning; Apache OpenNLP; categorization; public administration; text mining; text processing; classification |
Information about study
Study programme: | Aplikovaná informatika/Informatika |
---|---|
Type of study programme: | Bakalářský studijní program |
Assigned degree: | Bc. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information Technologies |
Information on submission and defense
Date of assignment: | 1. 2. 2015 |
---|---|
Date of submission: | 6. 5. 2015 |
Date of defense: | 18. 6. 2015 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/51229/podrobnosti |