Hlavním cílem této bakalářské práce je porovnání schopností generativní umělé inteligence, konkrétně modelů Grok, ChatGPT a ChatGPT Plus, a neuronového strojového překladu využívajícího systémy DeepL a Google Translate při překladu odborných textů mezi češtinou a angličtinou. V teoretické části jsou představeny principy a historie obou technologií, popsány jejich výhody i limity a vysvětleny metriky BLEU a METEOR, které slouží k automatickému hodnocení kvality překladu. V praktické části byly vybrány odborné texty různého rozsahu ze tří odborných oblastí, jež byly přeloženy z češtiny do angličtiny i naopak pomocí uvedených nástrojů. K hodnocení kvality těchto překladů byly použity automatické metriky, lidské posouzení a dotazníkové šetření zkoumající preference a míru užití uživatelů. Hlavní výsledky ukazují, že model Grok dosahoval nejvyšších průměrných hodnot metrik BLEU i METEOR, zatímco ChatGPT se těmto hodnotám blížil zejména u kratších úseků textu. Neuronové překladače DeepL a Google Translate vykazovaly méně konzistentní výsledky u kratších textů. Celkově bylo zjištěno, že schopnost překladu silně závisí na oboru textů a směru překladů. Kvalita překladů není příliš ovlivněna délkou textu. Lidské hodnocení korespondovalo s automatickými metrikami. Dotazníkové šetření ukázalo podobné výsledky jako měření pomocí metrik i vlastní autorovo hodnocení. Dále byla zjištěna lehce vyšší preference použití neuronového strojového překladu než generativní umělé inteligence.
Klíčová slova:
porovnání překladů; generativní umělá inteligence; neuronový strojový překlad; překlad
Název práce:
Comparison of generative artificial intelligence translations
Autor(ka) práce:
Dang, The Dung
Typ práce:
Bachelor thesis
Vedoucí práce:
Strossa, Petr
Oponenti práce:
Chudán, David
Jazyk práce:
Česky
Abstrakt:
The primary objective of this bachelor’s thesis is to compare the capabilities of generative artificial intelligence models Grok, ChatGPT and ChatGPT Plus and neural machine translation systems DeepL and Google Translate in translating specialized texts between Czech and English. In the theoretical section, the principles and history of both technologies are presented, their advantages and limitations are described and the BLEU and METEOR metrics used for automatic evaluation of translation quality are explained. In the practical section, specialized texts of varying lengths from three academic fields were selected and translated from Czech into English and vice versa using the tools mentioned above. Automatic metrics, human evaluation and a questionnaire survey examining user preferences and usage rates were employed to assess the quality of these translations. The main results show that the Grok model achieved the highest average BLEU and METEOR scores, while ChatGPT approached these values particularly on shorter text segments. The neural translators DeepL and Google Translate showed less consistent performance on shorter texts. Overall, it was found that translation quality strongly depends on the text’s subject area and the direction of translation. Text length does not significantly affect translation quality. Human evaluations corresponded with the automatic metrics. The survey revealed results similar to those obtained by the author’s metric-based and subjective assessments. Furthermore, a slightly higher preference for using neural machine translation over generative artificial intelligence was observed.