Options of automated categorization of contracts

Thesis title: Možnosti automatizovanej kategorizácie kontraktov
Author: Bereš, Miroslav
Thesis type: Bachelor thesis
Supervisor: Jelínek, Ivan
Opponents: Oškera, Radek
Thesis language: Slovensky
Abstract:
Objektom záujmu mojej bakalárskej práce je automatická kategorizácia. Hlavným cieľom je preskúmanie súčasných prístupov k automatickej kategorizácii, návrh metodiky a vykonanie experimentu, v ktorom sa sleduje úspešnosť kategorizovania kontraktov ve-rejnej správy s využitím strojového učenia. Bakalárska práca je rozdelená do dvoch hlavných častí. Prvá časť je venovaná teórii, ktorá približuje a vysvetľuje danú problematiku. Takisto sú v tejto časti popísané súčasné prístupy k automatickej kategorizácii. Druhá časť je zameraná na navrhnutie metodiky experimentu a jeho prevedenie, počas ktorého sa sleduje úspešnosť automatického kategorizovania kontraktov. V priebehu experimentu sú vytvorené modely, ktoré sa v konečnom dôsledku aplikujú na kontrolnú skupinu. Výstupom sú rozkategorizované dokumenty, pri ktorých sa sleduje úspešnosť ich kategorizácie. Za týmto účelom je v práci použitý program Apache OpenNLP. Teoretická časť a návrh metodiky experimentu je vypracovaná na základe štúdia zahraničnej odbornej literatúry primárne získanej z online elektronických a informačných zdrojov.
Keywords: Apache OpenNLP; kategorizácia; spracovanie textu; strojové učenie; dolovanie z textu; verejná správa; klasifikácia
Thesis title: Možnosti automatizované kategorizace kontraktů
Author: Bereš, Miroslav
Thesis type: Bakalářská práce
Supervisor: Jelínek, Ivan
Opponents: Oškera, Radek
Thesis language: Slovensky
Abstract:
Objektem zájmu mé bakalářské práce je automatická kategorizace. Hlavním cílem je přezkoumání současných přístupů k automatické kategorizaci, návrh metodiky a provedení experimentu, ve kterém se sleduje úspěšnost kategorizovaných kontraktů veřejné zprávy s využitím strojového učení. Bakalářská práce je rozdělena do dvou hlavních částí. První část je věnována teorii, která přibližuje a vysvětluje danou problematiku. Rovněž jsou v této části popsány současné přístupy k automatické kategorizaci. Druhá část je zaměřena na navržení metodiky experimentu a jeho provedení, během kterého se sleduje úspěšnost automatické kategorizace kontraktů. V průběhu experimentu jsou vytvořeny modely, které se v konečném důsledku aplikují na kontrolní skupinu. Výstupem jsou rozkategorizované dokumenty, při kterých se sleduje úspěšnost jejich kategorizace. Za tímto účelem je v práci použit program Apache OpenNLP. Teoretická část a návrh metodiky experimentu je vypracována na základě studia zahraniční odborné literatury primárně získané z online elektronických a informačních zdrojů.
Keywords: strojové učení; zpracování textu; klasifikace; Apache OpenNLP; dolování z textu; kategorizace; veřejná správa
Thesis title: Options of automated categorization of contracts
Author: Bereš, Miroslav
Thesis type: Bachelor thesis
Supervisor: Jelínek, Ivan
Opponents: Oškera, Radek
Thesis language: Slovensky
Abstract:
My bachelor thesis is focused on automatic categorization. The main goal is to examine actual approaches in automatic categorization, propose methodology for an experiment and perform the experiment. The experiment is done in order to measure success rate of automatic categorization with use of machine learning. It is performed on contracts obtained from public administration's web pages. The bachelor is divided into two parts, theoretical part and the experiment. First one focuses on analyzing theory which explains the subject matter, there are also described current approaches in automatic categorization. Second part describes methodology proposal of the experiment and performing of the experiment. During the process of the experiment, there are created models that are applied on control group. The experiment's outputs are categorized documents. These documents are used to monitor the success rate of automatic categorization. In order to measure the success rate, there is software called Apache OpenNLP used in this experiment. The theoretical part and proposal of the methodology are written based on studying foreign professional literature, mostly obtained from electronic and information sources.
Keywords: machine learning; Apache OpenNLP; categorization; public administration; text mining; text processing; classification

Information about study

Study programme: Aplikovaná informatika/Informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 1. 2. 2015
Date of submission: 6. 5. 2015
Date of defense: 18. 6. 2015
Identifier in the InSIS system: https://insis.vse.cz/zp/51229/podrobnosti

Files for download

    Last update: