Možnosti automatizované kategorizace kontraktů
Název práce: | Možnosti automatizovanej kategorizácie kontraktov |
---|---|
Autor(ka) práce: | Bereš, Miroslav |
Typ práce: | Bakalářská práce |
Vedoucí práce: | Jelínek, Ivan |
Oponenti práce: | Oškera, Radek |
Jazyk práce: | Slovensky |
Abstrakt: | Objektom záujmu mojej bakalárskej práce je automatická kategorizácia. Hlavným cieľom je preskúmanie súčasných prístupov k automatickej kategorizácii, návrh metodiky a vykonanie experimentu, v ktorom sa sleduje úspešnosť kategorizovania kontraktov ve-rejnej správy s využitím strojového učenia. Bakalárska práca je rozdelená do dvoch hlavných častí. Prvá časť je venovaná teórii, ktorá približuje a vysvetľuje danú problematiku. Takisto sú v tejto časti popísané súčasné prístupy k automatickej kategorizácii. Druhá časť je zameraná na navrhnutie metodiky experimentu a jeho prevedenie, počas ktorého sa sleduje úspešnosť automatického kategorizovania kontraktov. V priebehu experimentu sú vytvorené modely, ktoré sa v konečnom dôsledku aplikujú na kontrolnú skupinu. Výstupom sú rozkategorizované dokumenty, pri ktorých sa sleduje úspešnosť ich kategorizácie. Za týmto účelom je v práci použitý program Apache OpenNLP. Teoretická časť a návrh metodiky experimentu je vypracovaná na základe štúdia zahraničnej odbornej literatúry primárne získanej z online elektronických a informačných zdrojov. |
Klíčová slova: | Apache OpenNLP; kategorizácia; spracovanie textu; strojové učenie; dolovanie z textu; verejná správa; klasifikácia |
Název práce: | Možnosti automatizované kategorizace kontraktů |
---|---|
Autor(ka) práce: | Bereš, Miroslav |
Typ práce: | Bakalářská práce |
Vedoucí práce: | Jelínek, Ivan |
Oponenti práce: | Oškera, Radek |
Jazyk práce: | Slovensky |
Abstrakt: | Objektem zájmu mé bakalářské práce je automatická kategorizace. Hlavním cílem je přezkoumání současných přístupů k automatické kategorizaci, návrh metodiky a provedení experimentu, ve kterém se sleduje úspěšnost kategorizovaných kontraktů veřejné zprávy s využitím strojového učení. Bakalářská práce je rozdělena do dvou hlavních částí. První část je věnována teorii, která přibližuje a vysvětluje danou problematiku. Rovněž jsou v této části popsány současné přístupy k automatické kategorizaci. Druhá část je zaměřena na navržení metodiky experimentu a jeho provedení, během kterého se sleduje úspěšnost automatické kategorizace kontraktů. V průběhu experimentu jsou vytvořeny modely, které se v konečném důsledku aplikují na kontrolní skupinu. Výstupem jsou rozkategorizované dokumenty, při kterých se sleduje úspěšnost jejich kategorizace. Za tímto účelem je v práci použit program Apache OpenNLP. Teoretická část a návrh metodiky experimentu je vypracována na základě studia zahraniční odborné literatury primárně získané z online elektronických a informačních zdrojů. |
Klíčová slova: | strojové učení; zpracování textu; klasifikace; Apache OpenNLP; dolování z textu; kategorizace; veřejná správa |
Název práce: | Options of automated categorization of contracts |
---|---|
Autor(ka) práce: | Bereš, Miroslav |
Typ práce: | Bachelor thesis |
Vedoucí práce: | Jelínek, Ivan |
Oponenti práce: | Oškera, Radek |
Jazyk práce: | Slovensky |
Abstrakt: | My bachelor thesis is focused on automatic categorization. The main goal is to examine actual approaches in automatic categorization, propose methodology for an experiment and perform the experiment. The experiment is done in order to measure success rate of automatic categorization with use of machine learning. It is performed on contracts obtained from public administration's web pages. The bachelor is divided into two parts, theoretical part and the experiment. First one focuses on analyzing theory which explains the subject matter, there are also described current approaches in automatic categorization. Second part describes methodology proposal of the experiment and performing of the experiment. During the process of the experiment, there are created models that are applied on control group. The experiment's outputs are categorized documents. These documents are used to monitor the success rate of automatic categorization. In order to measure the success rate, there is software called Apache OpenNLP used in this experiment. The theoretical part and proposal of the methodology are written based on studying foreign professional literature, mostly obtained from electronic and information sources. |
Klíčová slova: | machine learning; Apache OpenNLP; categorization; public administration; text mining; text processing; classification |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Informatika |
---|---|
Typ studijního programu: | Bakalářský studijní program |
Přidělovaná hodnost: | Bc. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačních technologií |
Informace o odevzdání a obhajobě
Datum zadání práce: | 1. 2. 2015 |
---|---|
Datum podání práce: | 6. 5. 2015 |
Datum obhajoby: | 18. 6. 2015 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/51229/podrobnosti |