[發明專利]一種基于WaveNet的骨導語音增強波形生成方法有效
| 申請號: | 201910590941.8 | 申請日: | 2019-07-02 |
| 公開(公告)號: | CN110648684B | 公開(公告)日: | 2022-02-18 |
| 發明(設計)人: | 張雄偉;鄭昌艷;楊吉斌;曹鐵勇;李莉;孫蒙 | 申請(專利權)人: | 中國人民解放軍陸軍工程大學 |
| 主分類號: | G10L21/0232 | 分類號: | G10L21/0232;G10L21/0332;G10L25/18;G10L25/27 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 薛云燕 |
| 地址: | 210007 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 wavenet 導語 增強 波形 生成 方法 | ||
1.一種基于WaveNet的骨導語音增強波形生成方法,其特征在于,包括以下步驟:
步驟1、構建基于BLSTM的幅度譜增強模型和基于WaveNet的波形生成模型,在基于WaveNet的波形生成模型中引入跨采樣率的上采樣模塊;
步驟2、分別訓練基于BLSTM的幅度譜增強模型和基于WaveNet的波形生成模型,其中基于BLSTM的幅度譜增強模型的輸入為采樣率slow下骨導語音幅度譜,輸出目標為采樣率slow下氣導語音幅度譜;基于WaveNet的波形生成模型的輸入為采樣率slow下骨導語音相位信息和氣導語音幅度譜,輸出目標為采樣率shigh下氣導語音波形;其中slow<shigh;
步驟3、將待增強的采樣率slow下骨導語音幅度譜送入訓練好的基于BLSTM的幅度譜增強模型中得到增強的幅度譜,再將該增強的幅度譜聯合骨導語音相位信息送入訓練好的基于WaveNet的波形生成模型中,得到增強的采樣率shigh下語音波形。
2.根據權利要求1所述的基于WaveNet的骨導語音增強波形生成方法,其特征在于,步驟1所述跨采樣率的上采樣模塊,具體為:
設置兩種采樣率即slow、shigh條件下語音特征的分幀窗長時間與窗移時間一致,使得幀級特征分辨率均為1/thop,thop表示分幀窗移時間;同時,采用線性差值的上采樣方法。
3.根據權利要求1或2所述的基于WaveNet的骨導語音增強波形生成方法,其特征在于,步驟2中骨導語音幅度譜、氣導語音幅度譜、骨導語音相位信息通過以下方式獲取:
步驟2.1、對骨導語音x和氣導語音y分別進行波形幅度歸一化,歸一化到[-1,1]之間,得到歸一化骨導語音x'和歸一化氣導語音y';
步驟2.2、抽取骨導語音和氣導語音的聲學特征,得到骨導語音幅度譜Mx、氣導語音幅度譜My、骨導語音相位信息,所述骨導語音相位信息具體為骨導語音群時延特征GDx;
步驟2.3、對骨導語音幅度譜Mx和氣導語音幅度譜My分別進行聲學特征取log,并進行MVN歸一化處理,得到歸一化的骨導語音幅度譜M′x和歸一化的氣導語幅度譜M′y。
4.根據權利要求3所述的基于WaveNet的骨導語音增強波形生成方法,其特征在于,步驟2中對基于BLSTM的幅度譜增強模型的訓練,具體如下:
步驟3.1、設置學習率為ηB,訓練迭代次數為NB;
步驟3.2、將歸一化后骨導語音幅度譜M′x送入基于BLSTM的幅度譜增強模型得到估計幅度譜
步驟3.3、根據均方誤差函數MSE更新BLSTM參數θB為表示與M′y之間的MSE損失函數誤差;其中θB為基于BLSTM的幅度譜增強模型的參數;
步驟3.4、循環迭代步驟3.2~3.3,直到達到最大迭代次數NB。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍陸軍工程大學,未經中國人民解放軍陸軍工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910590941.8/1.html,轉載請聲明來源鉆瓜專利網。





