[發明專利]基于局部注意力機制的語音增強方法、裝置及介質有效
| 申請號: | 202010117498.5 | 申請日: | 2020-02-25 |
| 公開(公告)號: | CN111341331B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 方澤煌;康元勛 | 申請(專利權)人: | 廈門億聯網絡技術股份有限公司 |
| 主分類號: | G10L21/02 | 分類號: | G10L21/02;G10L21/0208 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郭浩輝;麥小嬋 |
| 地址: | 361009 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 局部 注意力 機制 語音 增強 方法 裝置 介質 | ||
1.一種基于局部注意力機制的語音增強方法,其特征在于,包括:
采集待處理語音,對所述待處理語音進行語音合成處理,得到待增強語音;
對所述待增強語音進行特征提取,得到所述待增強語音的多維特征,包括:對所述待增強語音進行加窗分幀處理并進行短傅里葉變換,并計算每幀待增強語音的頻域對數譜;將所述每幀待增強語音的頻域對數譜均分為22個子頻帶,對每一子頻帶進行DCT變換得到22維特征;將所述22維特征中的每一當前幀與所述當前幀的前兩幀和所述當前幀的后兩幀分別進行差異比較,并根據所述當前幀的特征得到36維特征;將基音周期、當前幀譜距離、當前幀與前兩幀分別計算所得的譜距離差作為特征得到4維特征;將所述22維特征、所述36維特征和所述4維特征進行累加,得到所述待增強語音的62維特征;
建立基于局部注意力機制的RNN模型,并將所述多維特征輸入至所述RNN模型;
對所述RNN模型進行訓練,得到語音增強模型;
根據所述語音增強模型對所述多維特征進行計算得到時頻掩蔽因子,根據所述時頻掩蔽因子以及所述待增強語音的頻譜,得到所述待增強語音的增強語音頻譜;
根據所述增強語音頻譜得到語音增強波形。
2.如權利要求1所述的基于局部注意力機制的語音增強方法,其特征在于,所述待處理語音包括純凈語音和噪聲;所述采集待處理語音,對所述待處理語音進行語音合成處理,得到待增強語音,具體為:
采集純凈語音以及不同場景的原始噪聲,根據預設的篩選規則對所述原始噪聲進行篩選,得到常規噪聲;對所述純凈語音和所述常規噪聲進行語音合成處理,得到待增強語音。
3.如權利要求1所述的基于局部注意力機制的語音增強方法,其特征在于,所述對所述RNN模型進行訓練,得到語音增強模型,具體為:
采用Adam訓練策略和loss函數對所述RNN模型進行訓練,得到語音增強模型。
4.如權利要求1所述的基于局部注意力機制的語音增強方法,其特征在于,所述根據所述時頻掩蔽因子以及所述待增強語音的頻譜,得到所述待增強語音的增強語音頻譜,具體為:
將所述時頻掩蔽因子與所述待增強語音的頻譜進行相乘運算,得到所述待增強語音的增強語音頻譜。
5.如權利要求1所述的基于局部注意力機制的語音增強方法,其特征在于,所述根據所述增強語音頻譜得到語音增強波形,具體為:
對所述增強語音頻譜進行逆傅里葉變換,得到所述待增強語音的語音增強波形。
6.一種基于局部注意力機制的語音增強系統,其特征在于,包括語音合成模塊、特征提取模塊、特征輸入模塊、訓練模塊、計算模塊和語音增強模塊;
所述語音合成模塊,用于采集待處理語音,對所述待處理語音進行語音合成處理,得到待增強語音;
所述特征提取模塊,用于對所述待增強語音進行特征提取,得到所述待增強語音的多維特征;具體用于:對所述待增強語音進行加窗分幀處理并進行短傅里葉變換,并計算每幀待增強語音的頻域對數譜;將所述每幀待增強語音的頻域對數譜均分為22個子頻帶,對每一子頻帶進行DCT變換得到22維特征;將所述22維特征中的每一當前幀與所述當前幀的前兩幀和所述當前幀的后兩幀分別進行差異比較,并根據所述當前幀的特征得到36維特征;將基音周期、當前幀譜距離、當前幀與前兩幀分別計算所得的譜距離差作為特征得到4維特征;將所述22維特征、所述36維特征和所述4維特征進行累加,得到所述待增強語音的62維特征;
所述特征輸入模塊,用于基于局部注意力機制建立RNN模型,并將所述多維特征輸入至所述RNN模型;
所述訓練模塊,用于對所述RNN模型進行訓練,得到語音增強模型;
所述計算模塊,用于根據所述語音增強模型對所述多維特征進行計算得到時頻掩蔽因子,根據所述時頻掩蔽因子以及所述待增強語音的頻譜,得到所述待增強語音的增強語音頻譜;
所述語音增強模塊,用于根據所述增強語音頻譜得到語音增強波形。
7.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質包括存儲的計算機程序,其中,在所述計算機程序運行時控制所述計算機可讀存儲介質所在設備執行如權利要求1至5中任意一項所述的基于局部注意力機制的語音增強方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門億聯網絡技術股份有限公司,未經廈門億聯網絡技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010117498.5/1.html,轉載請聲明來源鉆瓜專利網。





