Selection of OCR Solution for Invoice Processing

Thesis title: Výběr OCR řešení pro zpracování faktur
Author: Dědina, Lukáš
Thesis type: Diplomová práce
Supervisor: Buchalcevová, Alena
Opponents: Doležel, Michal
Thesis language: Česky
Abstract:
I Když má optické rozpoznávání znaků svůj původ již v první polovině dvacátého století, získává v současné době kvůli rozvoji techniky na významu v rámci počítačového vidění a rozpoznávání objektů. V této práci bude krátce popsána historie OCR a techniky využívané pro zpracování obrazu. Důraz je kvůli zaměření práce kladen na současné metody rozpoznávání textu a na výhody, které s sebou přináší digitalizace faktur. Jelikož v této oblasti hrají velkou roli neuronové sítě, především v procesu inteligentního učení, budou představeny jednotlivé prvky těchto sítí. Dále bude představeno, jak neuronové sítě fungují a některé jejich architektury. V následující části jsou představeny dvě společnosti a řešení, které využívají pro skenování a validaci faktur. Jsou stanovena kritéria pro testování a provedením multikriteriální analýzy je vyhodnoceno kvalitnější řešení a to se bude v další části zpracovávat. Následně bude na základě získaných informací navržena optimalizace řešení, které bylo úspěšnější v multikriteriální analýze. Bude realizována optimalizace pomocí kontrolních součtů, která zajistí automatickou validaci faktur. Automatická validace je otestována pomocí experimentu se sto vzorovými fakturami. Celý proces zpracování je následně představen na konkrétním příkladu jedné faktury. Další část se zaměřuje na možné rozšíření napojením na bankovní API. Jedná se o případovou studii, která má za cíl představit další možnosti automatizace přes přímé napojení na bankovní API.V závěru práce je shrnuto, čím se tato práce zabývala a jakých výsledků dosáhla. Hlavním přínosem této práce je realizovaná optimalizace zpracování faktur, která může sloužit jako koncept pro další společnosti.
Keywords: OCR; optické rozpoznávání znaků; metody OCR; historie OCR; neuronové sítě; soft computing; konvoluční neuronové sítě; optimalizace; automatická validace; API
Thesis title: Selection of OCR Solution for Invoice Processing
Author: Dědina, Lukáš
Thesis type: Diploma thesis
Supervisor: Buchalcevová, Alena
Opponents: Doležel, Michal
Thesis language: Česky
Abstract:
Even when optical character recognition has been researched since first half of twentieth century, it has received a major importance in computer vision and object detection due to the development of technology at this time. This thesis present the history of OCR and techniques used for image processing will be briefly described. Thesis is focused on text recognition methods and the benefits of digitizing invoices. As neural networks play a major role in this area, especially in the process of intelligent learning, the elements of these networks will be presented. Next, it will be introduced how neural networks work and some of their architectures. The following section introduces two companies and solutions that they use to scan and validate invoices. Criteria are set for testing and a higher quality solution is evaluated by a multi-criteria analysis and it will be processed in the next part.More successful solution will be optimized. Checksum optimization will be implemented to ensure automatic invoice validation. Automatic validation is tested using an experiment with one hundred sample invoices. The entire processing process is then presented on a specific example of one invoice.The next section is focused on the possible expansion by linking to the bank API. This is a case study that aims to introduce additional possible automation. The conclusion summarizes goals of this thesis and what results it has achieved. The main benefit of this work is the implemented optimization of invoice processing, which can serve as a concept for other companies.
Keywords: convolutional neural networks; optimalization; automatical validation; API; OCR methods; OCR; optical character recognition; OCR history; neural networks; soft computing

Information about study

Study programme: Aplikovaná informatika/Podniková informatika
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 7. 6. 2018
Date of submission: 24. 4. 2019
Date of defense: 27. 5. 2019
Identifier in the InSIS system: https://insis.vse.cz/zp/66141/podrobnosti

Files for download

    Last update: