Selection of OCR Solution for Invoice Processing
Thesis title: | Výběr OCR řešení pro zpracování faktur |
---|---|
Author: | Dědina, Lukáš |
Thesis type: | Diplomová práce |
Supervisor: | Buchalcevová, Alena |
Opponents: | Doležel, Michal |
Thesis language: | Česky |
Abstract: | I Když má optické rozpoznávání znaků svůj původ již v první polovině dvacátého století, získává v současné době kvůli rozvoji techniky na významu v rámci počítačového vidění a rozpoznávání objektů. V této práci bude krátce popsána historie OCR a techniky využívané pro zpracování obrazu. Důraz je kvůli zaměření práce kladen na současné metody rozpoznávání textu a na výhody, které s sebou přináší digitalizace faktur. Jelikož v této oblasti hrají velkou roli neuronové sítě, především v procesu inteligentního učení, budou představeny jednotlivé prvky těchto sítí. Dále bude představeno, jak neuronové sítě fungují a některé jejich architektury. V následující části jsou představeny dvě společnosti a řešení, které využívají pro skenování a validaci faktur. Jsou stanovena kritéria pro testování a provedením multikriteriální analýzy je vyhodnoceno kvalitnější řešení a to se bude v další části zpracovávat. Následně bude na základě získaných informací navržena optimalizace řešení, které bylo úspěšnější v multikriteriální analýze. Bude realizována optimalizace pomocí kontrolních součtů, která zajistí automatickou validaci faktur. Automatická validace je otestována pomocí experimentu se sto vzorovými fakturami. Celý proces zpracování je následně představen na konkrétním příkladu jedné faktury. Další část se zaměřuje na možné rozšíření napojením na bankovní API. Jedná se o případovou studii, která má za cíl představit další možnosti automatizace přes přímé napojení na bankovní API.V závěru práce je shrnuto, čím se tato práce zabývala a jakých výsledků dosáhla. Hlavním přínosem této práce je realizovaná optimalizace zpracování faktur, která může sloužit jako koncept pro další společnosti. |
Keywords: | OCR; optické rozpoznávání znaků; metody OCR; historie OCR; neuronové sítě; soft computing; konvoluční neuronové sítě; optimalizace; automatická validace; API |
Thesis title: | Selection of OCR Solution for Invoice Processing |
---|---|
Author: | Dědina, Lukáš |
Thesis type: | Diploma thesis |
Supervisor: | Buchalcevová, Alena |
Opponents: | Doležel, Michal |
Thesis language: | Česky |
Abstract: | Even when optical character recognition has been researched since first half of twentieth century, it has received a major importance in computer vision and object detection due to the development of technology at this time. This thesis present the history of OCR and techniques used for image processing will be briefly described. Thesis is focused on text recognition methods and the benefits of digitizing invoices. As neural networks play a major role in this area, especially in the process of intelligent learning, the elements of these networks will be presented. Next, it will be introduced how neural networks work and some of their architectures. The following section introduces two companies and solutions that they use to scan and validate invoices. Criteria are set for testing and a higher quality solution is evaluated by a multi-criteria analysis and it will be processed in the next part.More successful solution will be optimized. Checksum optimization will be implemented to ensure automatic invoice validation. Automatic validation is tested using an experiment with one hundred sample invoices. The entire processing process is then presented on a specific example of one invoice.The next section is focused on the possible expansion by linking to the bank API. This is a case study that aims to introduce additional possible automation. The conclusion summarizes goals of this thesis and what results it has achieved. The main benefit of this work is the implemented optimization of invoice processing, which can serve as a concept for other companies. |
Keywords: | convolutional neural networks; optimalization; automatical validation; API; OCR methods; OCR; optical character recognition; OCR history; neural networks; soft computing |
Information about study
Study programme: | Aplikovaná informatika/Podniková informatika |
---|---|
Type of study programme: | Magisterský studijní program |
Assigned degree: | Ing. |
Institutions assigning academic degree: | Vysoká škola ekonomická v Praze |
Faculty: | Faculty of Informatics and Statistics |
Department: | Department of Information Technologies |
Information on submission and defense
Date of assignment: | 7. 6. 2018 |
---|---|
Date of submission: | 24. 4. 2019 |
Date of defense: | 27. 5. 2019 |
Identifier in the InSIS system: | https://insis.vse.cz/zp/66141/podrobnosti |