Extrakce prozódických vlastností a syntéza zpěvu pomocí end-to-end sekvence neurálních modulů

Název práce: Prosodic feature extraction and singing voice synthesis with an End-to-end Neural network model sequence
Autor(ka) práce: Kočí, Ondřej
Typ práce: Diploma thesis
Vedoucí práce: Mittner, Jan
Oponenti práce: Polák, Petr
Jazyk práce: English
Abstrakt:
Prosody is an intrinsic aspect of human speech. However, most popular speech synthesizers ignore it or only use its average representation when synthesizing artificial voices. This thesis proposes a new End-to-End model sequence prototype based on the Deep Neural Network architecture. Utilizing Mellotron (Rafael Valle et al. 2019), Tacotron (Yuxuan Wang et al. 2017), WaveGlow (Ryan Prenger et al. 2018) and other neural models, it can synthesize waveforms with prosody by extracting it from a source audio clip and applying it to synthesized audio. Unlike other models, this prototype uses a popular framework Nvidia NeMo for neural module development (Oleksii Kuchaiev et al. 2019). The prototype can synthesize singing voice clips with pitch and rhythm transfer, which allows it to preserve original characteristics of the source speaker. The prototype also works with datasets based solely on speaking utterances, and therefore does not require a singing corpus to train. This prototype serves as a proof of concept for real-time singing voice synthesis with advanced control over prosodic features supplied via a source audio implemented largely using the models provided by the Nvidia NeMo framework.
Klíčová slova: Mellotron; Tacotron; Neural model; Neural networks; AI; Convolution; Neuron; NeMo; Prosody; Prosodic feature; Singing; Neural module
Název práce: Extrakce prozódických vlastností a syntéza zpěvu pomocí end-to-end sekvence neurálních modulů
Autor(ka) práce: Kočí, Ondřej
Typ práce: Diplomová práce
Vedoucí práce: Mittner, Jan
Oponenti práce: Polák, Petr
Jazyk práce: English
Abstrakt:
Prozódie je neodmyslitelnou vlastností lidského hlasu. Většina dostupných hlasových syntetizátorů ji však ignoruje, či využívá pouze její průměrnou reprezentaci pro generaci umělého hlasu. Tato práce navrhuje nový prototyp složený z end-to-end sekvence modelů, který je založen na architektuře hlubokých neuronových sítí. S využitím Mellotronu (Rafael Valle et al. 2019), Tacotronu (Yuxuan Wang et al. 2017), WaveGlow (Ryan Prenger et al. 2018) a dalších neurálních modulů dokáže prototyp generovat zvukový záznam hlasu obsahující prozódii pomocí extrakce ze zdrojového klipu a její následné aplikaci na klip výstupní. Narozdíl od ostatních modelů, tento prototyp byl vyvinut za pomoci populárního frameworku Nvidia NeMo (Oleksii Kuchaiev et al. 2019). Prototyp dokáže generovat klipy s přenosem výšky hlasu a tempa, čímž je mu umožněno ve výstupu zachovat charakteristiky reprezentující zdrojového mluvčího. Prototyp navíc používá pouze datový set založený na namluvených, nikoli nazpívaných klipech, není tedy k jeho provozu potřeba zaopatření nazpívaného korpusu. Tento prototyp prokazuje funkčnost konceptu přenosu prozódie ze vstupního klipu na klip výstupní, v reálném čase a s využitím většiny modelů dostupných ve frameworku Nvidia NeMo.
Klíčová slova: Neurální modul; Neuronové sítě; Umělá inteligence; Konvoluce; NeMo; Prozódie; Prozódická vlastnost; Zpěv; Mellotron; Tacotron; Neurální model; Neuron

Informace o studiu

Studijní program / obor: Informační systémy a technologie/Vývoj informačních systémů
Typ studijního programu: Magisterský studijní program
Přidělovaná hodnost: Ing.
Instituce přidělující hodnost: Vysoká škola ekonomická v Praze
Fakulta: Fakulta informatiky a statistiky
Katedra: Katedra informačních technologií

Informace o odevzdání a obhajobě

Datum zadání práce: 31. 10. 2021
Datum podání práce: 1. 5. 2022
Datum obhajoby: 2. 6. 2022
Identifikátor v systému InSIS: https://insis.vse.cz/zp/78588/podrobnosti

Soubory ke stažení

    Poslední aktualizace: