Automatická identifikace kódování a jazyka textu
Název práce: | Automatická identifikace kódování a jazyka textu |
---|---|
Autor(ka) práce: | Hron, Michal |
Typ práce: | Bakalářská práce |
Vedoucí práce: | Pinkas, Otakar |
Oponenti práce: | Pavlíčková, Jarmila |
Jazyk práce: | Česky |
Abstrakt: | Zpracování prostých nebo složitých textů (MIME typ - application) často vyžaduje automatické rozpoznání použitého kódování a jazyka. Některé typy souborů nebo stránek obsahují vnitřní informaci o způsobu kódování. Ovšem může dojít ke konfliktům, např. mezi hlavičkami protokolu HTTP a značkou meta. Někdy je vhodné ověřovat správnost kódování souborů, i když je kódování známé. Není-li identifikace způsobu kódování dostupná, je třeba použít metodu automatického rozpoznávání kódování a jazyka. Jednou z nich je metoda n-gramů. Byla již mnohokrát použita na kategorizaci textů v mnoha programech a v různých programovacích jazycích. Na základě testů se zdá, že automatické rozpoznání češtiny a dalších slovanských jazyků bývá méně úspěšné než rozpoznání jazyků západních. Zjištění příčin a hledání lepších řešení je proto i dnes přínosné. Důležitými parametry úlohy jsou délka vstupního textu a použití více jazyků v jednom dokumentu. Předpokládáme, že text neobsahuje věty v několika různých jazycích. Bakalářská práce má obsahovat kromě základní analýzy i softwarové řešení dílčích problémů, ať už ve formě samostatných programů nebo zásuvných modulů. |
Klíčová slova: | znak; n-gram; Unicode; HTML; kódování znaků; znaková sada; bajt; textový soubor; glyf |
Název práce: | automatic recognition of encoding and language |
---|---|
Autor(ka) práce: | Hron, Michal |
Typ práce: | Bachelor thesis |
Vedoucí práce: | Pinkas, Otakar |
Oponenti práce: | Pavlíčková, Jarmila |
Jazyk práce: | Česky |
Abstrakt: | Processing simple or complex texts (MIME type - application) often requires automatic recognition of encoding and language. Some types of files or pages contain an internal information about the encoding method. There might be some conflicts, however, eg. between the HTTP header and the meta tag. Sometimes it may be useful to verify the accuracy of the file encoding even when the encoding is known. In case that the identification of encoding is not available it is necessary to use a method of automatic recognition of encoding and language. One such method is an n-grams method. It has been used many times to categorize texts in many programs and in various programming languages. Based on tests results, it seems that the automatic recognition of the Czech language and other Slavic languages is less successful than the recognition of Western languages. Determining the reasons and searching for better solutions is therefore beneficial even nowadays. The length of the input text and the use of various languages in one document are important parameters. This thesis does not take text consisting of sentences in several different languages into consideration. In addition to a basic analysis of the topic, the thesis also includes a software solution to particular problems in a form of independent programs or plug-ins. |
Klíčová slova: | glyph; character set; Unicode; HTML; character; text file; character-encoding; n-gram; byte |
Informace o studiu
Studijní program / obor: | Aplikovaná informatika/Informatika |
---|---|
Typ studijního programu: | Bakalářský studijní program |
Přidělovaná hodnost: | Bc. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačního a znalostního inženýrství |
Informace o odevzdání a obhajobě
Datum zadání práce: | 6. 2. 2015 |
---|---|
Datum podání práce: | 6. 5. 2015 |
Datum obhajoby: | 23. 6. 2015 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/51954/podrobnosti |