Software for consolidation of information about legal persons from publicly available resources

Thesis title: Software pro konsolidaci informací o právních osobách z otevřených zdrojů
Author: Havelka, Jan
Thesis type: Diplomová práce
Supervisor: Kliegr, Tomáš
Opponents: Ralbovský, Martin
Thesis language: Česky
Abstract:
Získávání, zpracovávání a uchovávání dat je nedílnou součástí každého projektu, který má být dlouhodobě úspěšný. Tyto tři procesy jsou aplikovány jak na počátku, tak v průběhu projektu. Na počátku je třeba získat znalosti z aktuálně dostupných informací, které se následně zpracují a použijí jako základní stavební kámen. V průběhu je nutné aplikovat tyto procesy na data získaná po čas běhu projektu s cílem optimalizovat nebo přidávat nové podpůrné procesy. Zdrojem informací mohou být tištěné či elektronické zdroje. V dnešní době nahrazují elektronické zdroje tištěné, protože jsou dostupnější, rychleji se v nich vyhledává a fyzicky zabírají o mnoho méně prostoru.Cílem této diplomové práce je získat, transformovat a sdílet data, která budou následně využita pro společný projekt, jenž řeší predikci úpadku firem. Zdrojem dat jsou veřejně dostupné neplacené zdroje, kde je pro získání dat použita metodika web scrapingu. Transformace dat probíhá plně automaticky a mimo jiné využívá metodu optického rozpoznávání znaků. Výsledná data jsou uložena v databázi a prezentována v jednoduchém uživatelském rozhraní, které nabízí filtry, třídění či chytrý export dat do formátu xlsx. Práce dokumentuje vývoj od počátku. Obsahuje rešerši obdobných systémů, analýzu dat, návrh databázové struktury i realizaci programové části.Práce je vhodná pro toho, kdo se zabývá problematikou získávání dat z elektronických zdrojů nebo se zajímá o optické rozpoznávání znaků. Inspirací může být tato práce také pro právnické či fyzické osoby, které poptávají či přemýšlí o obdobné službě, která by mohla dopomoci k úspěšnějšímu vedení činnosti podnikání.
Keywords: Insolvence; Web scraping; Web crawling; Optické rozpoznávání znaků; Tesseract; Regulární výrazy
Thesis title: Software for consolidation of information about legal persons from publicly available resources
Author: Havelka, Jan
Thesis type: Diploma thesis
Supervisor: Kliegr, Tomáš
Opponents: Ralbovský, Martin
Thesis language: Česky
Abstract:
Receiving, processing and storing data is an important part of every project, which is meant to be successful from a long-term point of view. These three processes are being applied both in the beginning and during the project. In the beginning, there is a need of getting knowledge from currently available resources. The collected data are then being processed and used as a foundation. In the course of processing the project, there is a need to apply these processes on the data received during the project, while aiming on optimization or expansion of new support processes. Origin of information could be either in printed sources or electronic sources. Nowadays are the electronic sources replacing the printed ones as they are more accessible, faster to search in and they take up much less space.The aim of this diploma thesis is to gain, transform and share data, that will be later used for a shared project, which deals with prediction of company failure, with the data source being public unpaid sources, where the web scraping is used for gaining information. The data transformation runs automatically and among others, it uses optical character recognition method. Final data are stored in a database and presented in a simple user interface, which allows filtering, sorting of data and as well smart export to xlsx format. This thesis documents the development from the beginning. It consists of analysis of similar systems, data analysis, design of the database structure and the programming itself.This thesis can be useful for those, who are interested in obtaining data from electronic sources or optical character recognition. It can be as well an inspiration to legal and natural persons, that are considering similar service, which could help to lead the business more successfully.
Keywords: Optical character recognition; Tesseract; Regular expressions; Insolvency; Web scraping; Web crawling

Information about study

Study programme: Aplikovaná informatika/Znalostní a webové technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 1. 10. 2019
Date of submission: 3. 5. 2020
Date of defense: 4. 6. 2020
Identifier in the InSIS system: https://insis.vse.cz/zp/70949/podrobnosti

Files for download

    Last update: