Extrakce prozódických vlastností a syntéza zpěvu pomocí end-to-end sekvence neurálních modulů
Název práce: | Prosodic feature extraction and singing voice synthesis with an End-to-end Neural network model sequence |
---|---|
Autor(ka) práce: | Kočí, Ondřej |
Typ práce: | Diploma thesis |
Vedoucí práce: | Mittner, Jan |
Oponenti práce: | Polák, Petr |
Jazyk práce: | English |
Abstrakt: | Prosody is an intrinsic aspect of human speech. However, most popular speech synthesizers ignore it or only use its average representation when synthesizing artificial voices. This thesis proposes a new End-to-End model sequence prototype based on the Deep Neural Network architecture. Utilizing Mellotron (Rafael Valle et al. 2019), Tacotron (Yuxuan Wang et al. 2017), WaveGlow (Ryan Prenger et al. 2018) and other neural models, it can synthesize waveforms with prosody by extracting it from a source audio clip and applying it to synthesized audio. Unlike other models, this prototype uses a popular framework Nvidia NeMo for neural module development (Oleksii Kuchaiev et al. 2019). The prototype can synthesize singing voice clips with pitch and rhythm transfer, which allows it to preserve original characteristics of the source speaker. The prototype also works with datasets based solely on speaking utterances, and therefore does not require a singing corpus to train. This prototype serves as a proof of concept for real-time singing voice synthesis with advanced control over prosodic features supplied via a source audio implemented largely using the models provided by the Nvidia NeMo framework. |
Klíčová slova: | Mellotron; Tacotron; Neural model; Neural networks; AI; Convolution; Neuron; NeMo; Prosody; Prosodic feature; Singing; Neural module |
Název práce: | Extrakce prozódických vlastností a syntéza zpěvu pomocí end-to-end sekvence neurálních modulů |
---|---|
Autor(ka) práce: | Kočí, Ondřej |
Typ práce: | Diplomová práce |
Vedoucí práce: | Mittner, Jan |
Oponenti práce: | Polák, Petr |
Jazyk práce: | English |
Abstrakt: | Prozódie je neodmyslitelnou vlastností lidského hlasu. Většina dostupných hlasových syntetizátorů ji však ignoruje, či využívá pouze její průměrnou reprezentaci pro generaci umělého hlasu. Tato práce navrhuje nový prototyp složený z end-to-end sekvence modelů, který je založen na architektuře hlubokých neuronových sítí. S využitím Mellotronu (Rafael Valle et al. 2019), Tacotronu (Yuxuan Wang et al. 2017), WaveGlow (Ryan Prenger et al. 2018) a dalších neurálních modulů dokáže prototyp generovat zvukový záznam hlasu obsahující prozódii pomocí extrakce ze zdrojového klipu a její následné aplikaci na klip výstupní. Narozdíl od ostatních modelů, tento prototyp byl vyvinut za pomoci populárního frameworku Nvidia NeMo (Oleksii Kuchaiev et al. 2019). Prototyp dokáže generovat klipy s přenosem výšky hlasu a tempa, čímž je mu umožněno ve výstupu zachovat charakteristiky reprezentující zdrojového mluvčího. Prototyp navíc používá pouze datový set založený na namluvených, nikoli nazpívaných klipech, není tedy k jeho provozu potřeba zaopatření nazpívaného korpusu. Tento prototyp prokazuje funkčnost konceptu přenosu prozódie ze vstupního klipu na klip výstupní, v reálném čase a s využitím většiny modelů dostupných ve frameworku Nvidia NeMo. |
Klíčová slova: | Neurální modul; Neuronové sítě; Umělá inteligence; Konvoluce; NeMo; Prozódie; Prozódická vlastnost; Zpěv; Mellotron; Tacotron; Neurální model; Neuron |
Informace o studiu
Studijní program / obor: | Informační systémy a technologie/Vývoj informačních systémů |
---|---|
Typ studijního programu: | Magisterský studijní program |
Přidělovaná hodnost: | Ing. |
Instituce přidělující hodnost: | Vysoká škola ekonomická v Praze |
Fakulta: | Fakulta informatiky a statistiky |
Katedra: | Katedra informačních technologií |
Informace o odevzdání a obhajobě
Datum zadání práce: | 31. 10. 2021 |
---|---|
Datum podání práce: | 1. 5. 2022 |
Datum obhajoby: | 2. 6. 2022 |
Identifikátor v systému InSIS: | https://insis.vse.cz/zp/78588/podrobnosti |