PROSODY-TTS: An end-to-end speech synthesis system with prosody control


 

Synthesized speech from different Speech synthesis systems without prosody modification

(a). Short sentence synthesis

Parametric+WORLD Parametric+WaveNet WaveNet Tacotron Prosody-TTS
1. kõt̪ə s̪əməjə̃ t̪iːs̪ukũʈũd̪ɪ.
2. ɑːjən̪ə bʰɑːɾjə ɾɑːd͡ʒjələkʂmɪkɪ, ɾɑːʂʈɾə mə̃t̪ɾɪʋəɾgə̃loː s̪t̪ʰɑːn̪ə̃ ləbʰɪ̃t͡ʃɪn̪ɑː, ɑːme t̪ən̪ə pəd̪əʋɪkɪ ɾɑːd͡ʒiːn̪ɑːmɑː t͡ʃeːs̪t̪un̪əʈlu ʋɑːɾt̪əlot͡ʃt͡ʃɪn̪ə ʋɪʂəjə̃ ʋɪd̪ɪt̪əmeː.
3. məulɪkə s̪əd̪upɑːjɑːlu pẽt͡ʃukoːʋɑːlɪ.

(b). Paragraph synthesis

4. ʋjɑːks̪ɪn̪ kɑːɾəɳə̃gɑː d̪uʂpʰəlɪt̪ɑːlu t͡ʃoːʈu t͡ʃeːs̪ukun̪n̪əʈlu ekkəɖɑː gʰəʈən̪əlu n̪əmoːd̪u kɑːleːd̪u. ən̪n̪ɪ d͡ʒɪllɑːlloː kəlekʈəɾlə ɑːd̪ʰʋəɾjə̃loː poːʈiːpoːʈiːgɑː ʈiːkɑːlə pɾəkɾɪjə kon̪əs̪ɑːgɪ̃d̪ɪ. ɑ̃ːd̪ʰɾəpɾəd̪eːʃ kə̃ʈeː ekkuʋə d͡ʒən̪ɑːbʰɑː kəlɪgɪn̪ə eː ɾɑːʂʈɾə̃loːn̪uː okeːɾoːd͡ʒu ɪ̃t̪ə ped̪d̪ə et̪t̪un̪ə ʋjɑːks̪ɪn̪lu ʋeːs̪ɪn̪ə s̪ə̃d̪əɾbʰɑːlu leːʋu.
5. pɾəs̪t̪ut̪ə, ɾɑːboːjeː ɑːɾt̪ʰɪkə s̪ə̃ʋət̪s̪əɾɑːlloː əɪʈiː ɾə̃gɑːn̪n̪ɪ d̪ʋɪt̪iːjəʃɾeːɳɪ pəʈʈəɳɑːləku t̪iːs̪ukeɭleː pɾəjət̪n̪ɑːlən̪u mumməɾə̃ t͡ʃeːs̪t̪ɑːmən̪ɪ iː s̪ə̃d̪əɾbʰə̃gɑː keːʈiːɑːɾ pɾəkəʈɪ̃t͡ʃɑːɾu. n̪ɪd͡ʒɑːmɑːbɑːd̪, məɦəbuːbn̪əgəɾ əɪʈiː ʈəʋəɾlən̪u iː eːɖɑːd̪ɪ pɾɑːɾə̃bʰɪ̃t͡ʃɪ ʋət͡ʃt͡ʃeː eːɖɑːd̪ɪ n̪əlləgõɖə, ɾɑːməgũɖə̃, s̪ɪd̪d̪ɪpeːʈəloː əɪʈiː ʈəʋəɾlə n̪ɪɾmɑːɳə̃ puːɾt̪ɪ t͡ʃeːs̪t̪ɑːmən̪n̪ɑːɾu.
 




Prosody modified speech signals from different systems


Modification factor Parametric+WORLD Parametric+WaveNet Prosody-TTS
1. d͡ʒəɖpiː t͡ʃʰəɪɾməɪn̪ t̪iːɾupəɪ, d̪ɑːd̪ɑːpu ə̃d̪əɾuː, t̪iːʋɾə əs̪ə̃t̪ɾɨpt̪ɪ, ʋjəkt̪ə̃ t͡ʃeːs̪ɪn̪əʈlu s̪əmɑːt͡ʃɑːɾə̃.
Without modification
Pitch * 1.5
Duration * 0.85
Pitch * 1.5, Duration * 0.85
---------------------------------------
2. iː meːɾəku keːs̪u n̪əmoːd̪u t͡ʃeːs̪ukon̪ɪ, d̪əɾjɑːpt̪u t͡ʃes̪t̪un̪n̪ɑ̃ː ən̪ɪ, n̪ɪ̃d̪ɪt̪uɖu ʃɾiːn̪u pəɾɑːɾiːloː un̪n̪ɑːɖən̪ɪ, es̪s̪əɪ peːɾkon̪n̪ɑːɾu.
Without modification
Pitch * 0.75
Duration * 1.15
Pitch * 0.75, Duration * 1.15