[發明專利]基于門控循環編解碼網絡的語音增強方法在審
| 申請號: | 201911011966.4 | 申請日: | 2019-10-23 |
| 公開(公告)號: | CN110867192A | 公開(公告)日: | 2020-03-06 |
| 發明(設計)人: | 常新旭;袁曉光;寇金橋;張楊;楊林;吳敏;王昕;徐冬冬;趙曉燕;閆帥 | 申請(專利權)人: | 北京計算機技術及應用研究所 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L21/02;G10L25/30;G10L25/03 |
| 代理公司: | 中國兵器工業集團公司專利中心 11011 | 代理人: | 王雪芬 |
| 地址: | 100854*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 門控 循環 解碼 網絡 語音 增強 方法 | ||
1.一種基于門控循環編解碼網絡的語音增強方法,其特征在于,包括以下步驟:
步驟一:混合實驗數據,提取對數功率譜特征;
步驟二:構建基于門控循環神經網絡的語音增強模型;
步驟三:將步驟一提取的數據對所述語音增強模型進行訓練;
步驟四:將步驟一提取的數據作為待增強語音特征送入訓練好的語音增強模型,輸出得到相應的干凈語音特征估計;
步驟五:將步驟四所得到的待增強語音特征的干凈語音特征估計進行波形重構,恢復語音信號。
2.如權利要求1所述的方法,其特征在于,步驟一具體為:
1)將原始的干凈語音數據和噪聲數據重采樣為16000hz;
2)按照不同的輸入信噪比,混合干凈語音數據和噪聲數據,構建含噪語音數據;
3)提取干凈語音數據和含噪語音數據的對數功率譜特征,構建用于訓練網絡的干凈語音特征和含噪語音特征的數據對,其中,計算對數功率譜時的幀長為512個點,幀移為256點,所計算出的特征維度為257。
3.如權利要求2所述的方法,其特征在于,步驟二構建的語音增強模型包含兩個部分:編碼器和解碼器,模型輸入為以第n幀為中心的相鄰多幀對數功率譜特征,即:X=(xn-N,xn-N+1,...,xn,...,xn-N+1,xn+N),N為整數,編碼器將輸入的所述相鄰多幀對數功率譜特征重新編碼使之成為包含全部上下文信息的高層特征表示C,解碼器根據該特征表示C并結合當前待增強語音特征,生成當前待增強語音的干凈語音特征估計這一過程用公式表示如下:
C=Encoder(X)
4.如權利要求3所述的方法,其特征在于,編碼器和解碼器的具體實現是使用GRU網絡實現,GRU網絡的公式輸出值如下:
rt=σ(xtWxr+ht-1Whr+br)
zt=σ(xtWxz+ht-1Whz+bz)
其中,代表逐元素乘法,Wxr,Wxz,Wxh∈Rd×h和Whr,Whz,Whh∈Rh×h是權重參數,br,bz,bh∈R1×h是偏差參數,σ為激活函數。
5.如權利要求4所述的方法,其特征在于,所述GRU網絡層數為2,每層包含1024個節點。
6.如權利要求5所述的方法,其特征在于,模型輸入為相鄰連續15幀對數功率譜特征。
7.如權利要求1所述的方法,其特征在于,步驟三中,含噪語音特征為訓練特征,干凈語音特征為訓練目標。
8.如權利要求4所述的方法,其特征在于,步驟五中,將步驟四所得到的待增強語音特征的干凈語音特征估計結合待增強語音特征的相位譜,通過逆傅里葉變換重構時域波形信號,最終得到增強的語音信號。
9.一種如權利要求1至8中任一項所述的語音增強方法的語音增強效果評估的方法,其特征在于,該方法采用感知語音質量這種評價指標進行評估。
10.如權利要求9所述的方法,其特征在于,該方法還采用短時客觀可懂度這種評價指標進行評估。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京計算機技術及應用研究所,未經北京計算機技術及應用研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911011966.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:輔助觸控裝置、方法和電子設備
- 下一篇:一種便攜式儲能充電器





