[發(fā)明專利]基于BLSTM的分頻拓譜抗噪語音轉(zhuǎn)換方法有效
| 申請?zhí)枺?/td> | 202011288173.X | 申請日: | 2020-11-17 |
| 公開(公告)號: | CN112562704B | 公開(公告)日: | 2023-08-18 |
| 發(fā)明(設(shè)計)人: | 孫蒙;苗曉孔;張雄偉;曹鐵勇;鄭昌艷;李莉 | 申請(專利權(quán))人: | 中國人民解放軍陸軍工程大學(xué) |
| 主分類號: | G10L21/013 | 分類號: | G10L21/013;G10L25/30;G10L25/24 |
| 代理公司: | 南京理工大學(xué)專利中心 32203 | 代理人: | 岑丹 |
| 地址: | 210007 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 blstm 分頻 拓譜抗噪 語音 轉(zhuǎn)換 方法 | ||
1.一種基于BLSTM的分頻拓譜抗噪語音轉(zhuǎn)換方法,其特征在于,具體步驟為:
步驟1:對源語音和目標(biāo)語音進行濾波,并提取語音特征參數(shù),所述語音特征參數(shù)包括基頻、聲道譜、非周期成分;將提取到的源語音和目標(biāo)語音的聲道譜進行動態(tài)時間規(guī)整對齊;
步驟2:將對齊后的源語音和目標(biāo)語音聲道譜分別輸入分頻轉(zhuǎn)換的BLSTM網(wǎng)絡(luò)模型進行訓(xùn)練,得到對應(yīng)的特征轉(zhuǎn)換網(wǎng)絡(luò);
步驟3、構(gòu)建全局統(tǒng)計方差一致性濾波模型,具體方法為:
步驟3-1、計算目標(biāo)語句倒譜系數(shù)每一維梅爾倒譜的均值和方差;
步驟3-2、計算源語音經(jīng)分頻轉(zhuǎn)換的BLSTM網(wǎng)絡(luò)模型轉(zhuǎn)換后所得語句的所有幀的各維度梅爾倒譜均值和方差;
步驟3-3:構(gòu)造全局統(tǒng)計方差一致性初級濾波器,所述全局統(tǒng)計方差一致性初級濾波器具體為:
其中,σ2tar表示目標(biāo)語音各維度梅爾倒譜均值構(gòu)成的向量,σ2con表示源語音經(jīng)分頻轉(zhuǎn)換的BLSTM網(wǎng)絡(luò)模型轉(zhuǎn)換后所得語句各維度梅爾倒譜均值構(gòu)成的向量,y表示待轉(zhuǎn)換語句的梅爾倒譜,為測試階段源語音待轉(zhuǎn)換語句所有幀的各維度梅爾倒譜均值所構(gòu)成的向量;
步驟3-4、設(shè)置調(diào)整參數(shù),獲得調(diào)整后的全局統(tǒng)計方差一致性濾波器,具體為:
其中,是經(jīng)過濾波后得到的梅爾倒譜,y表示待轉(zhuǎn)換語句的梅爾倒譜,α為調(diào)整參數(shù);
步驟4、將待轉(zhuǎn)換語音濾波后,提取待轉(zhuǎn)換語音的特征參數(shù),并進行預(yù)處理;
步驟5:將預(yù)處理后的待轉(zhuǎn)換語音的特征參數(shù)進行參數(shù)化的語音合成,生成最終的轉(zhuǎn)換語音。
2.根據(jù)權(quán)利要求1所述的基于BLSTM的分頻拓譜抗噪語音轉(zhuǎn)換方法,其特征在于,提取的聲道譜特征為梅爾倒譜。
3.根據(jù)權(quán)利要求1所述的基于BLSTM的分頻拓譜抗噪語音轉(zhuǎn)換方法,其特征在于,所述入分頻轉(zhuǎn)換的BLSTM網(wǎng)絡(luò)模型包括兩個結(jié)構(gòu)相同的BLSTM網(wǎng)絡(luò),兩個BLSTM網(wǎng)絡(luò)均由3個隱藏層組成,三層的隱藏節(jié)點數(shù)分別是:128,256,128,其中一個BLSTM網(wǎng)絡(luò)沒有dropout層,另一個BLSTM網(wǎng)絡(luò)的dropout層參數(shù)為0.5。
4.根據(jù)權(quán)利要求1所述的基于BLSTM的分頻拓譜抗噪語音轉(zhuǎn)換方法,其特征在于,計算目標(biāo)語音倒譜系數(shù)每一維梅爾倒譜的均值和方差的具體公式為:
其中,N表示訓(xùn)練階段目標(biāo)語句的數(shù)量,M表示每條語句包含的幀數(shù),T表示梅爾倒譜的維度,i表示梅爾倒譜維度的索引,和分別表示從所有訓(xùn)練語句的所有幀中求得的各維度的梅爾倒譜均值和方差,xi表示第i維梅爾譜。
5.根據(jù)權(quán)利要求1所述的基于BLSTM的分頻拓譜抗噪語音轉(zhuǎn)換方法,其特征在于,對待轉(zhuǎn)換語音的特征參數(shù)進行預(yù)處理的具體方法為:
非周期成分保持不變;
對基頻進行對數(shù)線性變換;
對聲道譜進行展寬、分頻,得到高頻部分和全頻帶部分,利用分頻轉(zhuǎn)換的BLSTM網(wǎng)絡(luò)模型對高頻部分和全頻帶部分進行轉(zhuǎn)換,對轉(zhuǎn)換得到的全頻帶部分再次分頻得到高頻聲道譜和低頻聲道譜,通過融合模型將所得不同頻帶的聲道譜進行融合,將融合后的轉(zhuǎn)換聲道譜特征送入步驟3所得的全局統(tǒng)計方差一致性濾波模型進行濾波,得到轉(zhuǎn)換濾波后的聲道譜特征。
6.根據(jù)權(quán)利要求5所述的基于BLSTM的分頻拓譜抗噪語音轉(zhuǎn)換方法,其特征在于,所述融合模型具體為:
MC高融合=α*mcep高1+(1-α)*mcep高2
MC低1=mcep低1
MC全融合=[mcep低1+MC高融合]
式中,a為融合系數(shù),mcep高1為全頻帶聲道譜的高頻聲道譜,mcep低1為全頻帶聲道譜的低頻聲道譜,mcep高2為聲道譜高頻部分。
7.根據(jù)權(quán)利要求6所述的基于BLSTM的分頻拓譜抗噪語音轉(zhuǎn)換方法,其特征在于,所述融合系數(shù)具體為:
式中,mcep高和mcep低為分頻統(tǒng)計后得到的各部分頻帶參數(shù)信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍陸軍工程大學(xué),未經(jīng)中國人民解放軍陸軍工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011288173.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





