Character recognition of real scenes using neural networks

Thesis title: Rozpoznávání znaků z realných scén pomocí neuronových sítí
Author: Fiala, Petr
Thesis type: Diplomová práce
Supervisor: Neumann, Lukáš
Opponents: Berka, Petr
Thesis language: Česky
Abstract:
Tato práce se zabývá úlohou rozpoznávání znaků z reálných scén, které je věnována značná pozornost s rozvojem moderních technologií. Cílem studie je k rozpoznávání použít algoritmus, který dosahuje aktuálně nejlepších výsledků na standardních datových sadách. Vybraným modelem je konvoluční síť s deep architekturou, jejíž aplikace na zadanou úlohu nebyla dosud publikována. Implementované řešení navazuje na teoretickou část, která poskytuje ucelený přehled dané problematiky. V praktické části se vyskytují dva typy neuronových sítí: vícevrstvý perceptron a zmíněný model. Z porovnání výsledků těchto dvou typů architektur na první datové sadě vychází výrazně lépe použití komplexní struktury konvoluční sítě. Tento model byl dále ověřen na dvou veřejných datových sadách, které korespondují se zadáním úlohy. Zároveň bylo vyzkoušeno několik modifikací sítě a použití různých úprav vstupních dat s cílem získat optimální řešení v závislosti na struktuře dat. Prezentované řešení dokázalo poskytnout srovnatelnou úspěšnost predikce v porovnání s nejlepšími dosaženými výsledky, při použití syntetických učících vzorů a ověřilo možnost využití této architektury pro danou úlohu. V závěru studie jsou zmíněny možné rozšíření a vylepšení modelu, která by mohla vést k dalšímu snížení klasifikační chyby.
Keywords: Deep learning; Photo OCR; Neuronové sítě; Rozpoznávání znaků; Konvoluční sítě; Robust reading
Thesis title: Character recognition of real scenes using neural networks
Author: Fiala, Petr
Thesis type: Diploma thesis
Supervisor: Neumann, Lukáš
Opponents: Berka, Petr
Thesis language: Česky
Abstract:
This thesis focuses on a problem of character recognition from real scenes, which has earned significant amount of attention with the development of modern technology. The aim of the paper is to use an algorithm that has state-of-art performance on standard data sets and apply it for the recognition task. The chosen algorithm is a convolution network with deep structure where the application of the specified model has not yet been published. The implemented solution is built on theoretical parts which are provided in comprehensive overview. Two types of neural network are used in the practical part: a multilayer perceptron and the convolution model. But as the complex structure of the convolution networks gives much better performance compare with the classification error of the MLP on the first data set, only the convolution structure is used in the further experiments. The model is validated on two public data sets that correspond with the specification of the task. In order to obtain an optimal solution based on the data structure several tests had been made on the modificated network and with various adjustments on the input data. Presented solution provided comparable prediction rate compare to the best results of the other studies while using artificially generated learning pattern. In conclusion, the thesis describes possible extensions and improvements of the model, which should lead to the decrease of the classification error.
Keywords: Convolution networks; Character recognition; Deep learning; Neural networks; Photo OCR; Robust reading

Information about study

Study programme: Aplikovaná informatika/Znalostní technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 13. 1. 2014
Date of submission: 7. 5. 2014
Date of defense: 9. 6. 2014
Identifier in the InSIS system: https://insis.vse.cz/zp/47400/podrobnosti

Files for download

    Last update: