[發(fā)明專利]一種基于循環(huán)生成對抗網(wǎng)絡(luò)的語音轉(zhuǎn)換方法在審
| 申請?zhí)枺?/td> | 201910669055.4 | 申請日: | 2019-07-24 |
| 公開(公告)號: | CN110459232A | 公開(公告)日: | 2019-11-15 |
| 發(fā)明(設(shè)計)人: | 吳哲夫;陳明達 | 申請(專利權(quán))人: | 浙江工業(yè)大學(xué) |
| 主分類號: | G10L21/007 | 分類號: | G10L21/007 |
| 代理公司: | 33241 杭州斯可睿專利事務(wù)所有限公司 | 代理人: | 王利強<國際申請>=<國際公布>=<進入 |
| 地址: | 310014浙江省*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音轉(zhuǎn)換 訓(xùn)練集 驗證集 語音 并行數(shù)據(jù)集 非周期分量 平滑功率譜 模型訓(xùn)練 線性變換 說話 測試集 功率譜 獲取源 提取基 語料庫 送入 合成 輸出 對抗 轉(zhuǎn)換 網(wǎng)絡(luò) 統(tǒng)一 | ||
1.一種基于循環(huán)生成對抗網(wǎng)絡(luò)的語音轉(zhuǎn)換方法,其特征在于,所述方法包括以下步驟:
步驟1:獲取源說話人與目標說話人的語料庫并將所有的音頻統(tǒng)一為固定比特;
步驟2:按照設(shè)定的比例分別將源說話人與目標說話人的數(shù)據(jù)集分成訓(xùn)練集、測試集和驗證集;
步驟3:使用WORLD模型分別從源說話人和目標說話人訓(xùn)練集語音中提取平滑功率譜參數(shù)sp;
步驟4:將源說話者和目標說話者的功率譜參數(shù)sp送入到CycleGAN模型中訓(xùn)練;
步驟5:模型訓(xùn)練完成之后使用WORLD模型從源說話人和目標說話人的驗證集語音當中提取基頻信息f0、非周期分量ap和平滑功率譜參數(shù)sp,并對f0做線性變換,ap不做任何處理,sp傳入訓(xùn)練好的CycleGAN模型當中轉(zhuǎn)換并輸出;
步驟6:使用WORLD將步驟5中的f0、ap和sp合成語音轉(zhuǎn)換后的音頻,若轉(zhuǎn)換效果良好,音質(zhì)清晰,則保存訓(xùn)練好的CycleGAN模型;
步驟7:使用WORLD提取源說話人測試集語音的基頻信息f0、非周期分量ap和平滑功率譜參數(shù)sp,對f0做與步驟5相同的線性變換,ap不做任何處理,sp傳入步驟6保存好的CycleGAN模型中進行轉(zhuǎn)換;
步驟8:使用WORLD將步驟7中的f0、ap和sp合成語音并輸出。
2.如權(quán)利要求1所述的一種基于循環(huán)生成對抗網(wǎng)絡(luò)的語音轉(zhuǎn)換方法,其特征在于,所述步驟4中,功率譜參數(shù)送入CycleGAN之前,需要使用WORLD對其進行編碼,降低維度之后再傳入網(wǎng)絡(luò)模型。
3.如權(quán)利要求1或2所述的一種基于循環(huán)生成對抗網(wǎng)絡(luò)的語音轉(zhuǎn)換方法,其特征在于,所述步驟5中,sp傳入訓(xùn)練好的CycleGAN網(wǎng)絡(luò)模型進行轉(zhuǎn)換輸出之后,要對sp進行解碼操作,以恢復(fù)之前的維度。
4.如權(quán)利要求1或2所述的一種基于循環(huán)生成對抗網(wǎng)絡(luò)的語音轉(zhuǎn)換方法,其特征在于,所述步驟5中,f0的線性變換,其變換公式為:
f0new表示線性變換后的基頻信息,f0x、μx和分別表示源說話人基頻信息、源說話人基頻信息的均值與方差,μy和分別表示目標說話人基頻信息的均值與方差。
5.如權(quán)利要求1或2所述的一種基于循環(huán)生成對抗網(wǎng)絡(luò)的語音轉(zhuǎn)換方法,其特征在于,所述步驟5中,所述的CycleGAN模型的訓(xùn)練指標由CycleGAN損失函數(shù)決定;其中CycleGAN的損失函數(shù)由三部分構(gòu)成,分別是對抗性損失、循環(huán)一致性損失和身份映射損失;對抗性損失表示為:
其中,表示期望,x表示源說話人語音數(shù)據(jù),y表示目標說話人語音數(shù)據(jù),x~PData(x)和y~PData(y)分別表示x和y來自源說話人數(shù)據(jù)集PData(x)和目標說話人數(shù)據(jù)集PData(y)。GX→Y為生成器,表示從源說話人到目標說話人的的映射關(guān)系,輸入源說話人語音數(shù)據(jù),生成的具有目標說話人特征的源說話人語音數(shù)據(jù),DY表示鑒別器,用于判斷輸入的數(shù)據(jù)真實的y還是由生成器生成的虛假的數(shù)據(jù);生成器GX→Y試圖通過最小化對抗性損失來生成假數(shù)據(jù),使得DY無法鑒別,而DY試圖通過最大化該損失而不被生成器GX→Y欺騙;
循環(huán)一致性損失的表示為:
其中,表示期望,||·||1為L1正則化,GX→Y為生成器,表示從源說話人到目標說話人的的映射關(guān)系,輸入源說話人語音數(shù)據(jù),生成的具有目標說話人特征的源說話人語音數(shù)據(jù),GY→X為另一個生成器,表示從目標說話人到源說話人的映射關(guān)系,輸入目標說話人語音數(shù)據(jù),生成具有源說話人特征的語音數(shù)據(jù)。
身份映射損失的表示為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江工業(yè)大學(xué),未經(jīng)浙江工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910669055.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 處理語音的裝置和方法
- 語音處理方法、裝置以及電視接收設(shè)備
- 話音及文本通信系統(tǒng)、方法及設(shè)備
- 語音轉(zhuǎn)換設(shè)備及其用于轉(zhuǎn)換用戶語音的方法
- 語音轉(zhuǎn)換方法、裝置、計算機設(shè)備及計算機可讀存儲介質(zhì)
- 語音轉(zhuǎn)換方法、系統(tǒng)、裝置及存儲介質(zhì)
- 一種流式語音轉(zhuǎn)換方法、裝置、計算機設(shè)備及存儲介質(zhì)
- 一種語音風格的轉(zhuǎn)換方法、裝置、設(shè)備和存儲介質(zhì)
- 跨語言語音轉(zhuǎn)換方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 一種對偶語音轉(zhuǎn)換方法、裝置、存儲介質(zhì)和設(shè)備
- 一種訓(xùn)練集的拆分方法及裝置
- 一種訓(xùn)練集的訓(xùn)練方法及裝置
- 多重半監(jiān)督圖像的季節(jié)分類方法、系統(tǒng)、電子設(shè)備和介質(zhì)
- 一種基于特征分布的訓(xùn)練集生成、模型訓(xùn)練方法及裝置
- 訓(xùn)練集的獲取方法、裝置及電子設(shè)備
- 選擇模型訓(xùn)練方法、模型選擇方法、裝置及電子設(shè)備
- 一種工業(yè)物聯(lián)網(wǎng)下的模型智能訓(xùn)練方法
- 一種基于集成學(xué)習(xí)的深度學(xué)習(xí)缺陷圖像識別方法及系統(tǒng)
- 一種基于最優(yōu)訓(xùn)練集的深度學(xué)習(xí)圖像分類方法及系統(tǒng)
- 一種文本立場檢測方法
- 使用一次性交易代碼驗證個人身份或權(quán)限的方法和裝置
- 身份驗證方法與系統(tǒng)以及服務(wù)器數(shù)據(jù)處理方法和服務(wù)器
- 一種符合DO-178B/C A級軟件的模型驗證方法
- 用于現(xiàn)場裝置的驗證的裝置和方法
- 一種時間分辨激光誘導(dǎo)擊穿光譜定量方法
- 一種基于深度學(xué)習(xí)的圖形驗證碼識別方法
- 樣本集中特征穿越的處理方法及裝置、設(shè)備與可讀介質(zhì)
- 規(guī)則發(fā)布的確定方法、裝置及系統(tǒng)
- 一種基于最優(yōu)訓(xùn)練集的深度學(xué)習(xí)圖像分類方法及系統(tǒng)
- 驗證集損失曲線修正方法、裝置、終端設(shè)備及存儲介質(zhì)





