[發明專利]一種融合濾波與學習的在線語音增強方法及裝置在審
| 申請號: | 202111392458.2 | 申請日: | 2021-11-19 |
| 公開(公告)號: | CN113990341A | 公開(公告)日: | 2022-01-28 |
| 發明(設計)人: | 余煒平;趙宇;于偉;周斌;魯敏 | 申請(專利權)人: | 上海瀚訊信息技術股份有限公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L21/0216;G10L21/0332;G10L25/30 |
| 代理公司: | 上海智信專利代理有限公司 31002 | 代理人: | 楊怡清 |
| 地址: | 200335 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 濾波 學習 在線 語音 增強 方法 裝置 | ||
1.一種融合濾波與學習的在線語音增強方法,其特征在于,包括:
步驟S1,實時獲取原始帶噪語音信號,對所述原始帶噪語音信號進行卡爾曼濾波,得到濾波后的實時語音信號;
步驟S2,根據所述原始帶噪語音信號、所述濾波后的實時語音信號以及一離線語料庫,進行DNN訓練,得到訓練權重;
步驟S3,根據所述原始帶噪語音信號和所述訓練權重,進行DNN增強,得到增強后的語音信號;
步驟S4,對所述濾波后的語音信號和所述增強后的語音信號進行性能比較,獲取輸出語音信號。
2.根據權利要求1所述的融合濾波與學習的在線語音增強方法,其特征在于,所述步驟S2包括:
步驟S21,判斷所述原始帶噪語音信號是否為背景噪聲,若是,則將其作為實時背景噪聲信號輸出,進入步驟S22;若否,則結束流程;
步驟S22,將所述濾波后的實時語音信號和所述實時背景噪聲信號分別與所述離線語料庫中的語料進行整合,得到訓練用干凈語音數據塊和訓練用含噪語音數據塊;
步驟S23,對所述訓練用干凈語音數據塊和所述訓練用含噪語音數據塊進行特征提取,得到訓練用干凈語音特征和訓練用含噪語音特征;
步驟S24,以所述訓練用干凈語音特征為參考,對所述訓練用含噪語音特征進行有監督訓練,得出訓練權重w。
3.根據權利要求2所述的融合濾波與學習的在線語音增強方法,其特征在于,所述步驟S22包括:
步驟S221,分別對所述濾波后的實時語音信號和所述實時背景噪聲信號進行緩存,獲取實時語音數據塊和實時背景噪聲數據塊;
步驟S222,將所述實時語音數據塊和所述實時背景噪聲數據塊相加,獲取實時含噪語音數據塊;
步驟S223,獲取所述離線語料庫中的離線干凈語音數據塊和離線含噪語音數據塊,將所述實時語音數據塊與所述離線干凈語音數據塊進行拼接,得到訓練用干凈語音數據塊;將所述實時含噪語音數據塊與所述離線含噪語音數據塊進行拼接,得到訓練用含噪語音數據塊。
4.根據權利要求1所述的融合濾波與學習的在線語音增強方法,其特征在于,所述步驟S3包括:
步驟S31,對所述原始帶噪語音信號進行特征提取,得到原始帶噪語音特征;
步驟S32,根據所述訓練權重,對所述原始帶噪語音特征進行增強,獲取增強后的原始帶噪語音特征;
步驟S33,對所述增強后的原始帶噪語音特征進行波形重構,得到增強后的語音信號。
5.根據權利要求1所述的融合濾波與學習的在線語音增強方法,其特征在于,所述步驟S4中獲取輸出語音信號的方法為:若所述濾波后的語音信號性能優于所述增強后的語音信號,則以濾波后的語音信號作為輸出語音信號;若所述增強后的語音信號性能優于所述濾波后的語音信號,則以增強后的語音信號作為輸出語音信號。
6.一種融合濾波與學習的在線語音增強裝置,其特征在于,包括:
卡爾曼濾波模塊,設置為實時獲取原始帶噪語音信號,對所述原始帶噪語音信號進行卡爾曼濾波,得到濾波后的實時語音信號;
DNN訓練模塊,與所述卡爾曼濾波模塊相連,并設置為根據所述原始帶噪語音信號、所述濾波后的實時語音信號以及一離線語料庫,進行DNN訓練,得到訓練權重;
DNN增強模塊,與所述DNN訓練模塊相連,并設置為根據所述原始帶噪語音信號和所述訓練權重,進行DNN增強,得到增強后的語音信號;
性能比較模塊,分別與所述卡爾曼濾波模塊和所述DNN增強模塊相連,并設置為對所述濾波后的語音信號和所述增強后的語音信號進行性能比較,獲取輸出語音信號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海瀚訊信息技術股份有限公司,未經上海瀚訊信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111392458.2/1.html,轉載請聲明來源鉆瓜專利網。





