Možnosti automatizované kategorizace kontraktů

Název práce: Možnosti automatizovanej kategorizácie kontraktov
Autor(ka) práce: Bereš, Miroslav
Typ práce: Bakalářská práce
Vedoucí práce: Jelínek, Ivan
Oponenti práce: Oškera, Radek
Jazyk práce: Slovensky
Abstrakt:
Objektom záujmu mojej bakalárskej práce je automatická kategorizácia. Hlavným cieľom je preskúmanie súčasných prístupov k automatickej kategorizácii, návrh metodiky a vykonanie experimentu, v ktorom sa sleduje úspešnosť kategorizovania kontraktov ve-rejnej správy s využitím strojového učenia. Bakalárska práca je rozdelená do dvoch hlavných častí. Prvá časť je venovaná teórii, ktorá približuje a vysvetľuje danú problematiku. Takisto sú v tejto časti popísané súčasné prístupy k automatickej kategorizácii. Druhá časť je zameraná na navrhnutie metodiky experimentu a jeho prevedenie, počas ktorého sa sleduje úspešnosť automatického kategorizovania kontraktov. V priebehu experimentu sú vytvorené modely, ktoré sa v konečnom dôsledku aplikujú na kontrolnú skupinu. Výstupom sú rozkategorizované dokumenty, pri ktorých sa sleduje úspešnosť ich kategorizácie. Za týmto účelom je v práci použitý program Apache OpenNLP. Teoretická časť a návrh metodiky experimentu je vypracovaná na základe štúdia zahraničnej odbornej literatúry primárne získanej z online elektronických a informačných zdrojov.
Klíčová slova: Apache OpenNLP; kategorizácia; spracovanie textu; strojové učenie; dolovanie z textu; verejná správa; klasifikácia
Název práce: Možnosti automatizované kategorizace kontraktů
Autor(ka) práce: Bereš, Miroslav
Typ práce: Bakalářská práce
Vedoucí práce: Jelínek, Ivan
Oponenti práce: Oškera, Radek
Jazyk práce: Slovensky
Abstrakt:
Objektem zájmu mé bakalářské práce je automatická kategorizace. Hlavním cílem je přezkoumání současných přístupů k automatické kategorizaci, návrh metodiky a provedení experimentu, ve kterém se sleduje úspěšnost kategorizovaných kontraktů veřejné zprávy s využitím strojového učení. Bakalářská práce je rozdělena do dvou hlavních částí. První část je věnována teorii, která přibližuje a vysvětluje danou problematiku. Rovněž jsou v této části popsány současné přístupy k automatické kategorizaci. Druhá část je zaměřena na navržení metodiky experimentu a jeho provedení, během kterého se sleduje úspěšnost automatické kategorizace kontraktů. V průběhu experimentu jsou vytvořeny modely, které se v konečném důsledku aplikují na kontrolní skupinu. Výstupem jsou rozkategorizované dokumenty, při kterých se sleduje úspěšnost jejich kategorizace. Za tímto účelem je v práci použit program Apache OpenNLP. Teoretická část a návrh metodiky experimentu je vypracována na základě studia zahraniční odborné literatury primárně získané z online elektronických a informačních zdrojů.
Klíčová slova: strojové učení; zpracování textu; klasifikace; Apache OpenNLP; dolování z textu; kategorizace; veřejná správa
Název práce: Options of automated categorization of contracts
Autor(ka) práce: Bereš, Miroslav
Typ práce: Bachelor thesis
Vedoucí práce: Jelínek, Ivan
Oponenti práce: Oškera, Radek
Jazyk práce: Slovensky
Abstrakt:
My bachelor thesis is focused on automatic categorization. The main goal is to examine actual approaches in automatic categorization, propose methodology for an experiment and perform the experiment. The experiment is done in order to measure success rate of automatic categorization with use of machine learning. It is performed on contracts obtained from public administration's web pages. The bachelor is divided into two parts, theoretical part and the experiment. First one focuses on analyzing theory which explains the subject matter, there are also described current approaches in automatic categorization. Second part describes methodology proposal of the experiment and performing of the experiment. During the process of the experiment, there are created models that are applied on control group. The experiment's outputs are categorized documents. These documents are used to monitor the success rate of automatic categorization. In order to measure the success rate, there is software called Apache OpenNLP used in this experiment. The theoretical part and proposal of the methodology are written based on studying foreign professional literature, mostly obtained from electronic and information sources.
Klíčová slova: machine learning; Apache OpenNLP; categorization; public administration; text mining; text processing; classification

Informace o studiu

Studijní program / obor: Aplikovaná informatika/Informatika
Typ studijního programu: Bakalářský studijní program
Přidělovaná hodnost: Bc.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 1. 2. 2015
Datum podání práce: 6. 5. 2015
Datum obhajoby: 18. 6. 2015
Identifikátor v systému InSIS: https://insis.vse.cz/zp/51229/podrobnosti

Soubory ke stažení

    Poslední aktualizace: