[發明專利]一種面向語音識別的語音增強方法有效
| 申請號: | 201911180882.3 | 申請日: | 2019-11-27 |
| 公開(公告)號: | CN110970044B | 公開(公告)日: | 2022-06-07 |
| 發明(設計)人: | 楊玉紅;馮佳倩;蔡林君;涂衛平;艾浩軍;高戈 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G10L21/02 | 分類號: | G10L21/02;G10L25/30;G10L15/06;G10L15/22 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 嚴彥 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 語音 識別 增強 方法 | ||
1.一種面向語音識別的語音增強方法,其特征在于,包括以下步驟:
步驟1,利用近端麥克風和遠端麥克風錄制得到的語音,對干凈語音進行估計;
步驟2,將步驟1中得到的估計語音作為參考語音信號,計算參考語音和待測降噪語音的包絡相關系數,構造和語音識別相關的模型優化目標函數;
步驟3,構建語音增強的深度神經網絡模型,訓練目標為估計語音,模型優化目標函數由步驟2得到;根據優化結果實現語音增強;
步驟1的實現包括以下子步驟,
步驟1.1,對近端和遠端麥克風錄制的帶噪語音分別做分幀、加窗和短時傅里葉變換,得到C(n,f)和Xi(n,f),其中n為幀索引,f為頻點索引,i為遠端陣列麥克風的索引;
步驟1.2,估計干凈語音為Si(n,f),計算每個時頻單元的殘差Ri(n,f),公式如下,
Ri(n,f)=Xi(n,f)-Si(n,f)
其中,設定幀搜索范圍l,Lmin為向前搜索參數,Lmax為向后搜索參數,Gi(l,f)表示從近端麥克風信號到遠端麥克風的傳輸函數,由最小化總殘差推出,公式如下,
其中,*表示對矩陣做復共軛運算,H表示對矩陣做復共軛和轉置運算;
步驟1.3,將估計的干凈語音Sid(n,f)做逆傅里葉變換,從頻域轉化到時域上,作為參考語音信號。
2.根據權利要求1所述的面向語音識別的語音增強方法,其特征在于:向前搜索參數Lmin=-3,向后搜索參數Lmax=8。
3.根據權利要求1或2所述的面向語音識別的語音增強方法,其特征在于:步驟2的實現包括以下子步驟,
步驟2.1,對參考語音和待測降噪語音分別做分幀、加窗和短時傅里葉變換,將信號從時域轉換到頻域;
步驟2.2,找到參考語音中能量最大的幀,去掉參考語音和待測降噪語音中低于該幀40db以下的信號,然后分別對兩個信號進行頻帶分析;
步驟2.3,根據步驟2.2所得結果計算參考語音和待測降噪語音的短時頻譜包絡,并用向量表示,得到xj,m和yj,m;
步驟2.4,將待測降噪語音進行歸一化剪裁;
步驟2.5,計算每個時頻單元的相關系數,得到xj,m和yj,m的相關系數dj,m;
步驟2.6,計算所有幀對應的所有頻帶對應的相關系數的平均值,
其中,J是子帶數量,M是幀的數量,d為目標函數的最終表示,范圍從0到1,越靠近1,說明語音質量越好。
4.根據權利要求1或2所述的面向語音識別的語音增強方法,其特征在于:語音增強的深度神經網絡模型采用全卷積神經網絡FCN。
5.根據權利要求3所述的面向語音識別的語音增強方法,其特征在于:語音增強的深度神經網絡模型采用全卷積神經網絡FCN。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911180882.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高并發場景下即時通信消息傳輸方法
- 下一篇:一種深基坑監測預警系統





