[發(fā)明專利]基于半平行語(yǔ)料的語(yǔ)音轉(zhuǎn)換方法和系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202011460130.5 | 申請(qǐng)日: | 2020-12-11 |
| 公開(kāi)(公告)號(hào): | CN112530403B | 公開(kāi)(公告)日: | 2022-08-26 |
| 發(fā)明(設(shè)計(jì))人: | 吳夢(mèng)玥;徐志航;陳博 | 申請(qǐng)(專利權(quán))人: | 上海交通大學(xué);光明日?qǐng)?bào)社 |
| 主分類號(hào): | G10L13/033 | 分類號(hào): | G10L13/033;G10L13/10;G10L15/06;G10L21/013;G06N20/00 |
| 代理公司: | 上海專利商標(biāo)事務(wù)所有限公司 31100 | 代理人: | 顧嘉運(yùn) |
| 地址: | 200240 *** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 平行 語(yǔ)料 語(yǔ)音 轉(zhuǎn)換 方法 系統(tǒng) | ||
本公開(kāi)涉及一種用于訓(xùn)練語(yǔ)音轉(zhuǎn)換模型的方案,包括:在TTS預(yù)訓(xùn)練階段,通過(guò)使用說(shuō)話人的文本和聲學(xué)特征數(shù)據(jù)訓(xùn)練TTS編碼器、VC解碼器和參考編碼器來(lái)確定所述VC解碼器和參考編碼器的初始化網(wǎng)絡(luò)參數(shù);在VC預(yù)訓(xùn)練階段,對(duì)所述VC解碼器和所述參考編碼器的網(wǎng)絡(luò)參數(shù)進(jìn)行初始化并、固定,并使用說(shuō)話人的聲學(xué)特征訓(xùn)練VC編碼器以確定所述VC編碼器的初始化網(wǎng)絡(luò)參數(shù);以及在VC訓(xùn)練階段,對(duì)所述VC編碼器的網(wǎng)絡(luò)參數(shù)進(jìn)行初始化,并使用原始說(shuō)話人和目標(biāo)說(shuō)話人的聲學(xué)特征訓(xùn)練所述VC編碼器、所述VC解碼器和所述參考編碼器以確定經(jīng)預(yù)訓(xùn)練的所述VC編碼器、所述VC解碼器和所述參考編碼器的最終網(wǎng)絡(luò)參數(shù)。
技術(shù)領(lǐng)域
本申請(qǐng)涉及語(yǔ)音轉(zhuǎn)換領(lǐng)域,特別是一種基于半平行語(yǔ)料的語(yǔ)音轉(zhuǎn)換方法和系統(tǒng)。
背景技術(shù)
語(yǔ)音轉(zhuǎn)換(Voice Conversion,VC)是指在不改變語(yǔ)音中語(yǔ)義信息的情況下,通過(guò)改變語(yǔ)音的音色和音調(diào),將語(yǔ)音中的原始說(shuō)話人信息改變?yōu)樘囟ǖ哪繕?biāo)說(shuō)話人。語(yǔ)音轉(zhuǎn)換技術(shù)廣泛應(yīng)用于語(yǔ)音信號(hào)處理領(lǐng)域,尤其是在個(gè)性化語(yǔ)音合成、發(fā)音協(xié)助、語(yǔ)音增強(qiáng)、多媒體娛樂(lè)等領(lǐng)域有著非常廣闊的應(yīng)用前景。隨著深度神經(jīng)網(wǎng)絡(luò)的成熟,語(yǔ)音轉(zhuǎn)換也全面進(jìn)入神經(jīng)網(wǎng)絡(luò)時(shí)代,其轉(zhuǎn)換性能有明顯提升。
根據(jù)訓(xùn)練數(shù)據(jù)條件的不同,語(yǔ)音轉(zhuǎn)換可分為基于平行語(yǔ)料的語(yǔ)音轉(zhuǎn)換和基于非平行語(yǔ)料的語(yǔ)音轉(zhuǎn)換,基于平行語(yǔ)料的語(yǔ)音轉(zhuǎn)換一般指原始說(shuō)話人和目標(biāo)說(shuō)話人的訓(xùn)練語(yǔ)料擁有相同的文本內(nèi)容,而基于非平行語(yǔ)料的語(yǔ)音轉(zhuǎn)換則不具備相同文本語(yǔ)料的條件。
基于平行語(yǔ)料的語(yǔ)音轉(zhuǎn)換技術(shù)分為兩種:
1、通過(guò)動(dòng)態(tài)時(shí)間規(guī)整將長(zhǎng)度不相同的平行語(yǔ)料轉(zhuǎn)換成長(zhǎng)度相同的平行語(yǔ)料,然后通過(guò)一些建模長(zhǎng)度固定的序列方法,例如DNN、LSTM等訓(xùn)練轉(zhuǎn)換網(wǎng)絡(luò)。
2、使用序列到序列(sequence-to-sequence)的轉(zhuǎn)化方法,模型通過(guò)注意力機(jī)制學(xué)習(xí)原始特征序列和目標(biāo)特征序列之間的關(guān)系,從而實(shí)現(xiàn)動(dòng)態(tài)長(zhǎng)度的建模。
基于非平行語(yǔ)料的語(yǔ)音轉(zhuǎn)換技術(shù)有三種不同的線路:
1、音素后驗(yàn)概率圖法(Phonetic PosteriorGrams,PPGs)
該方法的核心思想是使用一個(gè)說(shuō)話人無(wú)關(guān)特征作為中間特征,來(lái)作為原始和目標(biāo)聲學(xué)特征之間的媒介。通過(guò)說(shuō)話人無(wú)關(guān)特征的提取器可以從任意原始說(shuō)話人的語(yǔ)音中提取中間特征,然后只需要訓(xùn)練一個(gè)從說(shuō)話人無(wú)關(guān)特征到目標(biāo)說(shuō)話人聲學(xué)特征之間的映射模型便可以實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)換。最直觀的說(shuō)話人無(wú)關(guān)特征即是文本特征,因此文章中使用每一幀對(duì)應(yīng)的音素后驗(yàn)概率圖作為中間特征,并用語(yǔ)音識(shí)別系統(tǒng)(Automatic Speech Recognition,ASR)作為該特征的提取器。
2、對(duì)抗訓(xùn)練法
對(duì)抗訓(xùn)練法主要是指由循環(huán)一致性生成對(duì)抗網(wǎng)絡(luò)(Cycle-consistencyGenerative Adversarial Networks,CycleGAN)為代表的一系列工作。基于CycleGAN的語(yǔ)音轉(zhuǎn)換方法于2017年提出,該方法以對(duì)偶學(xué)習(xí)為基礎(chǔ),包含兩個(gè)互為對(duì)偶的生成模型,兩個(gè)對(duì)偶模型相互串聯(lián),可以得到兩個(gè)循環(huán)來(lái)對(duì)特征進(jìn)行重建,同時(shí)加入判別器對(duì)重建的中間結(jié)果進(jìn)行約束,實(shí)現(xiàn)無(wú)監(jiān)督訓(xùn)練。在測(cè)試階段,只需要四個(gè)模型中的其中一個(gè)生成器作為轉(zhuǎn)換模型,轉(zhuǎn)換流程與標(biāo)準(zhǔn)的語(yǔ)音轉(zhuǎn)換方法沒(méi)有本質(zhì)差別。
3、變分自編碼器法
變分自編碼器(Variational Auto Encoder)分為編碼器和解碼器兩個(gè)模型,編碼器將輸入聲學(xué)特征轉(zhuǎn)換為說(shuō)話人無(wú)關(guān)的隱變量,再通過(guò)解碼器將隱變量恢復(fù)為編碼器的輸入。基于VAE的語(yǔ)音轉(zhuǎn)換方法基于信息提取的假設(shè):每一幀聲學(xué)特征包含說(shuō)話人信息和說(shuō)話人無(wú)關(guān)信息,而編碼器可以從每一幀聲學(xué)特征向量中盡可能抽取說(shuō)話人無(wú)關(guān)信息,而VAE中的KL散度約束其實(shí)就是一種企圖從聲學(xué)特征中去除說(shuō)話人信息的約束。
但是,無(wú)論是上述哪種語(yǔ)音轉(zhuǎn)換技術(shù),都存在其自身的缺點(diǎn),如下所述:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué);光明日?qǐng)?bào)社,未經(jīng)上海交通大學(xué);光明日?qǐng)?bào)社許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011460130.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L13-00 語(yǔ)音合成;文本-語(yǔ)音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語(yǔ)音的方法;語(yǔ)音合成設(shè)備
G10L13-06 .語(yǔ)音合成設(shè)備中使用的基本語(yǔ)音單位;級(jí)聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語(yǔ)音合成參數(shù)的產(chǎn)生,例如語(yǔ)義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測(cè)定
G10L13-04 ..語(yǔ)音合成系統(tǒng)的零部件,例如合成設(shè)備結(jié)構(gòu)或存儲(chǔ)器管理
- 一種語(yǔ)料提取器及提取語(yǔ)料的方法
- 軍事信息語(yǔ)料庫(kù)構(gòu)建方法及系統(tǒng)
- 待標(biāo)注語(yǔ)料的分配方法、裝置、可讀存儲(chǔ)介質(zhì)及電子設(shè)備
- 語(yǔ)料泛化方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 語(yǔ)料數(shù)據(jù)的處理方法、裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備
- 一種擴(kuò)展語(yǔ)料挖掘方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 語(yǔ)料生成方法、語(yǔ)料生成裝置、和存儲(chǔ)介質(zhì)
- 短語(yǔ)語(yǔ)料獲取方法及短語(yǔ)語(yǔ)料獲取裝置
- 一種語(yǔ)料分類方法、裝置及服務(wù)器
- 一種輸入方法、裝置和電子設(shè)備
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)





