[發(fā)明專利]一種聲音變換系統(tǒng)、方法及應(yīng)用有效

申請?zhí)枺?/td>	202011129857.5	申請日：	2020-10-21
公開（公告）號：	CN112017644B	公開（公告）日：	2021-02-12
發(fā)明（設(shè)計）人：	司馬華鵬;毛志強;龔雪飛	申請（專利權(quán)）人：	南京硅基智能科技有限公司
主分類號：	G10L15/06	分類號：	G10L15/06;G10L15/02;G10L19/16;G10L25/24;G10L25/30
代理公司：	江蘇舜點律師事務(wù)所 32319	代理人：	杜東輝
地址：	210000 江蘇省南京市***	國省代碼：	江蘇;32
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種聲音變換系統(tǒng) 方法應(yīng)用
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種聲音變換系統(tǒng)，包括：

說話人獨立的語音識別模型，至少包括瓶頸層，所述說話人獨立的語音識別模型配置為，將輸入的源語音的梅爾倒譜特征通過所述瓶頸層變換為源語音的瓶頸特征，并將所述源語音瓶頸特征由所述瓶頸層輸出至注意力變聲網(wǎng)絡(luò);

所述說話人獨立的語音識別模型的訓(xùn)練方法包括：

把多人語音識別訓(xùn)練語料中的文字轉(zhuǎn)換成的字符編碼的編號和多人語音識別訓(xùn)練語料的梅爾倒譜特征一起輸入說話人獨立的語音識別模型，運行反向傳播算法進行迭代優(yōu)化，直到說話人獨立的語音識別模型收斂；

注意力變聲網(wǎng)絡(luò)，其配置為，將源語音的瓶頸特征變換為與目標語音相符的梅爾倒譜特征；

神經(jīng)網(wǎng)絡(luò)聲碼器，其配置為，將與目標語音相符的梅爾倒譜特征轉(zhuǎn)化為語音輸出。

2.一種聲音變換方法，其特征在于，包括以下步驟：

說話人獨立的語音識別模型將輸入的源語音的梅爾倒譜特征通過瓶頸層變換為源語音的瓶頸特征，并將所述源語音瓶頸特征由瓶頸層輸出至注意力變聲網(wǎng)絡(luò);

所述說話人獨立的語音識別模型的訓(xùn)練方法包括：

注意力變聲網(wǎng)絡(luò)將源語音的瓶頸特征變換為與目標語音相符的梅爾倒譜特征；

神經(jīng)網(wǎng)絡(luò)聲碼器將與目標語音相符的梅爾倒譜特征轉(zhuǎn)化為語音輸出。

3.一種聲音變換系統(tǒng)的訓(xùn)練方法，其應(yīng)用于訓(xùn)練權(quán)利要求1所述的聲音變換系統(tǒng)，其特征在于，所述說話人獨立的語音識別模型的訓(xùn)練方法包括：

把多人語音識別訓(xùn)練語料中的文字轉(zhuǎn)換成的字符編碼的編號和多人語音識別訓(xùn)練語料的梅爾倒譜特征一起輸入說話人獨立的語音識別模型，運行反向傳播算法進行迭代優(yōu)化，直到說話人獨立的語音識別模型收斂。

4.根據(jù)權(quán)利要求3所述的一種聲音變換系統(tǒng)的訓(xùn)練方法，其特征在于，所述說話人獨立的語音識別模型的訓(xùn)練方法還包括：對所述多人語音識別訓(xùn)練語料進行多人語音識別訓(xùn)練語料預(yù)處理，所述多人語音識別訓(xùn)練語料預(yù)處理包括去空白和歸一化。

5.一種聲音變換系統(tǒng)的訓(xùn)練方法，其應(yīng)用于訓(xùn)練權(quán)利要求1所述的聲音變換系統(tǒng)，其特征在于，所述注意力變聲網(wǎng)絡(luò)的訓(xùn)練方法包括：

將目標語音的梅爾倒譜特征變換為目標語音的瓶頸特征；

把目標語音的瓶頸特征輸入基礎(chǔ)注意力變聲網(wǎng)絡(luò)，以目標說話人對應(yīng)的梅爾倒譜特征作為真實值，用深度遷移學(xué)習(xí)的方法訓(xùn)練注意力變聲網(wǎng)絡(luò)。

6.根據(jù)權(quán)利要求5所述的一種聲音變換系統(tǒng)的訓(xùn)練方法，其特征在于，將目標語音的梅爾倒譜特征變換為目標語音的瓶頸特征的步驟，使用預(yù)先訓(xùn)練的說話人獨立的語音識別模型實現(xiàn)。

7.一種聲音變換系統(tǒng)的訓(xùn)練方法，其應(yīng)用于訓(xùn)練權(quán)利要求1所述的聲音變換系統(tǒng)，其特征在于，所述神經(jīng)網(wǎng)絡(luò)聲碼器的訓(xùn)練方法包括：

把目標語音的梅爾倒譜特征和目標語音的聲音信號輸入預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲碼器，用深度遷移學(xué)習(xí)的方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲碼器。

8.根據(jù)權(quán)利要求5-7之一所述的一種聲音變換系統(tǒng)的訓(xùn)練方法，其特征在于，所述聲音變換系統(tǒng)的訓(xùn)練方法還包括：對目標語音進行目標語音預(yù)處理，目標語音預(yù)處理包括去空白和歸一化。

9.根據(jù)權(quán)利要求3-7之一所述的一種聲音變換系統(tǒng)的訓(xùn)練方法，其特征在于，所述訓(xùn)練方法還包括：參數(shù)提取，以取得多人語音識別訓(xùn)練語料的梅爾倒譜特征、目標語音的梅爾倒譜特征或源語音的梅爾倒譜特征。

10.一種終端，其特征在于，包括權(quán)利要求1所述的聲音變換系統(tǒng)。

11.一種計算機可讀的存儲介質(zhì)，其特征在于，所述計算機可讀的存儲介質(zhì)中存儲有計算機程序，其中，所述計算機程序被設(shè)置為運行時執(zhí)行所述權(quán)利要求3至7任一項中所述的方法。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京硅基智能科技有限公司，未經(jīng)南京硅基智能科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011129857.5/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種交管數(shù)據(jù)管理方法、裝置及服務(wù)器
下一篇：一種音頻上傳方法、裝置、設(shè)備和存儲介質(zhì)

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】