Speech recognition systems: specifics of the Czech language

Thesis title: Systémy rozpoznávání řeči: specifika českého jazyka
Author: Dařílková, Jana
Thesis type: Diplomová práce
Supervisor: Pavlíček, Antonín
Opponents: Strossa, Petr
Thesis language: Česky
Tato diplomová práce se zabývá systémy rozpoznávání řeči, tedy ASR systémy. První část práce představuje veškerou relevantní problematiku, tj. možnosti využití ASR systémů, hlavní jimi využívané technologie, a měření přesnosti prostřednictvím metody WER. Dále se práce věnuje analýze českého a zahraničního trhu se zaměřením na dostupné nástroje, které podporují rozpoznání českého jazyka, na což navazuje definování základních kritérií pro výběr vhodných produktů pro testování. Následuje komplexní analýza českých, resp. anglických, gramatických a pravopisných jevů, při jejichž kategorizaci je kladen důraz na rozdílnost člověka a ASR systému, a na základě doplňujících kritérií jsou pro testování vybrány dva STT nástroje – Dictation společnosti Apple a Dragon Dictation, součást aplikace Swype, společnosti Nuance – u nichž práce testuje také rozpoznání anglického jazyka. Druhá část práce se zabývá návrhem a realizací metodologie určující rozsah analyzovaného vzorku, kde bylo vzato 30 lidí, jak pro hlavní analýzu zpracování českého jazyka, tak pro doplňující analýzu zpracování anglického jazyka, a charakter vstupních dat. Za tímto účelem si práce klade za cíl sestavení vhodných vstupních textů pro testování na základě navržených kategorií chyb pro český a anglický jazyk, na nějž navazuje vlastní sběr dat, kterým bylo získáno 60 záznamů čteného speciálně sestaveného českého a anglického textu za optimálních podmínek od celkem 43 účastníků. Tato data byla následně po nezbytném předzpracování převedena vybranými dvěma STT nástroji na TXT soubory a zpracována prostřednictvím skriptu v programovacím jazyce Python, jenž slouží pro výpočet metody WER, dále v aplikaci Excel zpracována matematickými operacemi a funkcemi a zjištěné informace byly detailně prezentovány dle sledovaných jazyků. Třetí závěrečná část práce shrnuje zjištěné informace a identifikuje kategorie i konkrétní problematická slova a slovní spojení, na něž je potřeba si v případě uživatele nástroje dávat pozor a v případě společnosti vyvíjející nástroj se zaměřit za účelem zlepšení přesnosti rozpoznání.
Keywords: DTW; TTS nástroje; systémy rozpoznávání řeči; DNN; metoda WER; přesnost rozpoznání; Nuance; Dragon Dictation; HMM; ASR systémy; Swype; gramatické a pravopisné jevy českého jazyka; gramatické a pravopisné jevy anglického jazyka; Dictation; Apple
Thesis title: Speech recognition systems: specifics of the Czech language
Author: Dařílková, Jana
Thesis type: Diploma thesis
Supervisor: Pavlíček, Antonín
Opponents: Strossa, Petr
Thesis language: Česky
This diploma thesis deals with speech recognition systems, i.e. ASR systems. The first part of the thesis presents all of the relevant issues, i.e. ways of using ASR systems, the main used technologies, and measuring the accuracy using the WER method. Then, the thesis deals with the analysis of the Czech and foreign markets, focusing on the available tools that support the recognition of the Czech language, which is followed by defining the basic criteria for the selection of suitable products for testing. That is followed by a comprehensive analysis of Czech grammatical and spelling phenomena, respectively English. Here, the difference between a human and an ASR system is emphasized, and based on additional criteria, two STT tools are selected for testing. These are Apple's Dictation and Dragon Dictation, a part of Nuance's application Swype, where the thesis also tests the recognition of the English language. The second part of the thesis deals with designing and implementation of the methodology used in determining the size of the analyzed sample. Here, 30 people were taken for both the main analysis of the Czech language processing and for the complementary analysis of the English language processing, and the nature of the input data. For this purpose, the thesis aims to compile suitable input texts for testing, based on the proposed categories of errors for Czech and English languages. This is followed by the collecting of data, which provided 60 records of Czech and English specially-compiled reading under optimal conditions, from a total of 43 participants. This data was then converted by the two STT tools to TXT files and processed through a script in the Python programming language, which was used for calculating the WER method. This was then processed by mathematical operations and functions in Excel, and the detailed information was presented according to the two languages. The third part of the thesis summarizes the information and identifies the categories as well as the specific problematic words and phrases that a user of the tool needs to pay attention to, and that the company developing the tool needs to focus on, so the accuracy of the recognition would be improved.
Keywords: Dragon Dictation; TTS tools; recognition accuracy; grammatical and spelling phenomena of the Czech language; Dictation; Swype; WER method; grammatical and spelling phenomena of the English language; Nuance; HMM; DTW; DNN; Apple; speech recognition systems; ASR systems

Information about study

Study programme: Aplikovaná informatika/Znalostní a webové technologie
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Systems Analysis

Information on submission and defense

Date of assignment: 2. 10. 2017
Date of submission: 25. 4. 2018
Date of defense: 4. 6. 2018
Identifier in the InSIS system: https://insis.vse.cz/zp/63858/podrobnosti

Files for download

    Last update: