automatic recognition of encoding and language

Thesis title: Automatická identifikace kódování a jazyka textu
Author: Hron, Michal
Thesis type: Bakalářská práce
Supervisor: Pinkas, Otakar
Opponents: Pavlíčková, Jarmila
Thesis language: Česky
Abstract:
Zpracování prostých nebo složitých textů (MIME typ - application) často vyžaduje automatické rozpoznání použitého kódování a jazyka. Některé typy souborů nebo stránek obsahují vnitřní informaci o způsobu kódování. Ovšem může dojít ke konfliktům, např. mezi hlavičkami protokolu HTTP a značkou meta. Někdy je vhodné ověřovat správnost kódování souborů, i když je kódování známé. Není-li identifikace způsobu kódování dostupná, je třeba použít metodu automatického rozpoznávání kódování a jazyka. Jednou z nich je metoda n-gramů. Byla již mnohokrát použita na kategorizaci textů v mnoha programech a v různých programovacích jazycích. Na základě testů se zdá, že automatické rozpoznání češtiny a dalších slovanských jazyků bývá méně úspěšné než rozpoznání jazyků západních. Zjištění příčin a hledání lepších řešení je proto i dnes přínosné. Důležitými parametry úlohy jsou délka vstupního textu a použití více jazyků v jednom dokumentu. Předpokládáme, že text neobsahuje věty v několika různých jazycích. Bakalářská práce má obsahovat kromě základní analýzy i softwarové řešení dílčích problémů, ať už ve formě samostatných programů nebo zásuvných modulů.
Keywords: znak; n-gram; Unicode; HTML; kódování znaků; znaková sada; bajt; textový soubor; glyf
Thesis title: automatic recognition of encoding and language
Author: Hron, Michal
Thesis type: Bachelor thesis
Supervisor: Pinkas, Otakar
Opponents: Pavlíčková, Jarmila
Thesis language: Česky
Abstract:
Processing simple or complex texts (MIME type - application) often requires automatic recognition of encoding and language. Some types of files or pages contain an internal information about the encoding method. There might be some conflicts, however, eg. between the HTTP header and the meta tag. Sometimes it may be useful to verify the accuracy of the file encoding even when the encoding is known. In case that the identification of encoding is not available it is necessary to use a method of automatic recognition of encoding and language. One such method is an n-grams method. It has been used many times to categorize texts in many programs and in various programming languages. Based on tests results, it seems that the automatic recognition of the Czech language and other Slavic languages is less successful than the recognition of Western languages. Determining the reasons and searching for better solutions is therefore beneficial even nowadays. The length of the input text and the use of various languages in one document are important parameters. This thesis does not take text consisting of sentences in several different languages into consideration. In addition to a basic analysis of the topic, the thesis also includes a software solution to particular problems in a form of independent programs or plug-ins.
Keywords: glyph; character set; Unicode; HTML; character; text file; character-encoding; n-gram; byte

Information about study

Study programme: Aplikovaná informatika/Informatika
Type of study programme: Bakalářský studijní program
Assigned degree: Bc.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information and Knowledge Engineering

Information on submission and defense

Date of assignment: 6. 2. 2015
Date of submission: 6. 5. 2015
Date of defense: 23. 6. 2015
Identifier in the InSIS system: https://insis.vse.cz/zp/51954/podrobnosti

Files for download

    Last update: