Prosodic feature extraction and singing voice synthesis with an End-to-end Neural network model sequence

Thesis title: Prosodic feature extraction and singing voice synthesis with an End-to-end Neural network model sequence
Author: Kočí, Ondřej
Thesis type: Diploma thesis
Supervisor: Mittner, Jan
Opponents: Polák, Petr
Thesis language: English
Abstract:
Prosody is an intrinsic aspect of human speech. However, most popular speech synthesizers ignore it or only use its average representation when synthesizing artificial voices. This thesis proposes a new End-to-End model sequence prototype based on the Deep Neural Network architecture. Utilizing Mellotron (Rafael Valle et al. 2019), Tacotron (Yuxuan Wang et al. 2017), WaveGlow (Ryan Prenger et al. 2018) and other neural models, it can synthesize waveforms with prosody by extracting it from a source audio clip and applying it to synthesized audio. Unlike other models, this prototype uses a popular framework Nvidia NeMo for neural module development (Oleksii Kuchaiev et al. 2019). The prototype can synthesize singing voice clips with pitch and rhythm transfer, which allows it to preserve original characteristics of the source speaker. The prototype also works with datasets based solely on speaking utterances, and therefore does not require a singing corpus to train. This prototype serves as a proof of concept for real-time singing voice synthesis with advanced control over prosodic features supplied via a source audio implemented largely using the models provided by the Nvidia NeMo framework.
Keywords: Mellotron; Tacotron; Neural model; Neural networks; AI; Convolution; Neuron; NeMo; Prosody; Prosodic feature; Singing; Neural module
Thesis title: Extrakce prozódických vlastností a syntéza zpěvu pomocí end-to-end sekvence neurálních modulů
Author: Kočí, Ondřej
Thesis type: Diplomová práce
Supervisor: Mittner, Jan
Opponents: Polák, Petr
Thesis language: English
Abstract:
Prozódie je neodmyslitelnou vlastností lidského hlasu. Většina dostupných hlasových syntetizátorů ji však ignoruje, či využívá pouze její průměrnou reprezentaci pro generaci umělého hlasu. Tato práce navrhuje nový prototyp složený z end-to-end sekvence modelů, který je založen na architektuře hlubokých neuronových sítí. S využitím Mellotronu (Rafael Valle et al. 2019), Tacotronu (Yuxuan Wang et al. 2017), WaveGlow (Ryan Prenger et al. 2018) a dalších neurálních modulů dokáže prototyp generovat zvukový záznam hlasu obsahující prozódii pomocí extrakce ze zdrojového klipu a její následné aplikaci na klip výstupní. Narozdíl od ostatních modelů, tento prototyp byl vyvinut za pomoci populárního frameworku Nvidia NeMo (Oleksii Kuchaiev et al. 2019). Prototyp dokáže generovat klipy s přenosem výšky hlasu a tempa, čímž je mu umožněno ve výstupu zachovat charakteristiky reprezentující zdrojového mluvčího. Prototyp navíc používá pouze datový set založený na namluvených, nikoli nazpívaných klipech, není tedy k jeho provozu potřeba zaopatření nazpívaného korpusu. Tento prototyp prokazuje funkčnost konceptu přenosu prozódie ze vstupního klipu na klip výstupní, v reálném čase a s využitím většiny modelů dostupných ve frameworku Nvidia NeMo.
Keywords: Neurální modul; Neuronové sítě; Umělá inteligence; Konvoluce; NeMo; Prozódie; Prozódická vlastnost; Zpěv; Mellotron; Tacotron; Neurální model; Neuron

Information about study

Study programme: Informační systémy a technologie/Vývoj informačních systémů
Type of study programme: Magisterský studijní program
Assigned degree: Ing.
Institutions assigning academic degree: Vysoká škola ekonomická v Praze
Faculty: Faculty of Informatics and Statistics
Department: Department of Information Technologies

Information on submission and defense

Date of assignment: 31. 10. 2021
Date of submission: 1. 5. 2022
Date of defense: 2. 6. 2022
Identifier in the InSIS system: https://insis.vse.cz/zp/78588/podrobnosti

Files for download

    Last update: