[發明專利]語音增強方法、裝置、設備及介質有效
| 申請號: | 202011635949.0 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112767959B | 公開(公告)日: | 2023-10-17 |
| 發明(設計)人: | 梁彧;傅強;馬多佳;田野;楊滿智;蔡琳;王杰;金紅;陳曉光 | 申請(專利權)人: | 恒安嘉新(北京)科技股份公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L21/0232;G10L21/0264;G10L25/30 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100098 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 增強 方法 裝置 設備 介質 | ||
1.一種語音增強方法,其特征在于,包括:
獲取目標含噪語音信號,對所述目標含噪語音信號進行短時傅里葉變換,得到與所述目標含噪語音信號對應的目標頻域信號;
將所述目標頻域信號當前信號幀的目標特征輸入預先訓練得到的語音噪聲抑制模型中的編碼器中,得到與所述目標頻域信號當前信號幀對應的編碼特征;
將所述編碼特征、所述語音噪聲抑制模型中的解碼器輸出的所述目標頻域信號當前信號幀的前一個信號幀對應的解碼特征,輸入所述解碼器中,得到與所述目標頻域信號當前信號幀對應的解碼特征;
將與所述目標頻域信號各個信號幀對應的解碼特征進行信號重構,得到與所述目標含噪語音信號對應的目標增強語音信號。
2.根據權利要求1所述的方法,其特征在于,將所述目標頻域信號當前信號幀的目標特征輸入預先訓練得到的語音噪聲抑制模型中的編碼器中,得到與所述目標頻域信號當前信號幀對應的編碼特征,包括:
將所述目標特征輸入預先訓練得到的語音噪聲抑制模型中的編碼器中,所述編碼器包括第一自注意力層和第一前饋神經網絡;
在所述第一自注意力層中,根據所述目標特征生成查詢特征和關鍵字特征,并根據所述查詢特征和所述關鍵字特征計算所述目標特征的概率分布值,將所述概率分布值與所述目標特征的乘積作為所述第一自注意力層輸出特征;
在所述第一前饋神經網絡中,根據所述第一前饋神經網絡的參數對所述第一自注意力層輸出特征進行處理,得到所述第一前饋神經網絡輸出特征;
將所述第一前饋神經網絡輸出特征進行歸一化處理,得到與所述目標頻域信號當前信號幀對應的編碼特征。
3.根據權利要求2所述的方法,其特征在于,將所述編碼特征、所述語音噪聲抑制模型中的解碼器輸出的所述目標頻域信號當前信號幀的前一個信號幀對應的解碼特征,輸入所述解碼器中,得到與所述目標頻域信號當前信號幀對應的解碼特征,包括:
將所述編碼特征、所述目標頻域信號當前信號幀的前一個信號幀對應的解碼特征輸入所述解碼器中,所述解碼器包括第二自注意力層和第二前饋神經網絡;
在所述第二自注意力層中,對所述編碼特征與所述目標頻域信號當前信號幀的前一個信號幀對應的解碼特征進行拼接作為目標特征,根據所述目標特征生成查詢特征和關鍵字特征,并根據所述查詢特征和所述關鍵字特征計算所述目標特征的概率分布值,將所述概率分布值與所述目標特征的乘積作為所述第二自注意力層輸出特征;
在所述第二前饋神經網絡中,根據所述第二前饋神經網絡的參數對所述第二自注意力層輸出特征進行處理,得到所述第二前饋神經網絡輸出特征;
將所述第二前饋神經網絡輸出特征進行歸一化處理,得到與所述目標頻域信號當前信號幀對應的解碼特征。
4.根據權利要求2或3所述的方法,其特征在于,根據所述查詢特征和所述關鍵字特征計算所述目標特征的概率分布值,包括:
使用激活函數根據所述查詢特征和所述關鍵字特征計算所述目標特征的概率分布值。
5.根據權利要求1所述的方法,其特征在于,在獲取目標含噪語音信號之前,還包括:
對語音含噪樣本信號和語音樣本信號進行短時傅里葉變換,分別得到與所述語音含噪樣本信號對應的第一頻域信號,以及與所述語音樣本信號對應的第二頻域信號;其中,所述語音含噪樣本信號是在所述語音樣本信號的基礎上疊加噪聲信號生成的;
在對所述語音噪聲抑制模型進行訓練時,將所述第一頻域信號當前信號幀的特征輸入所述編碼器中,得到與所述第一頻域信號當前信號幀對應的編碼特征;
將所述編碼特征、所述第二頻域信號當前信號幀的前一個信號幀的特征輸入所述解碼器中,得到與所述第一頻域信號當前信號幀的對應的解碼特征;
計算所述語音噪聲抑制模型的當前損失函數值;
如果所述當前損失函數值大于誤差閾值,則對所述編碼器以及所述解碼器的參數進行優化,繼續對所述語音噪聲抑制模型進行訓練;
如果所述當前損失函數值小于或等于所述誤差閾值,則停止對所述語音噪聲抑制模型進行訓練,并將當前的所述語音噪聲抑制模型作為所述預先訓練得到的語音噪聲抑制模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于恒安嘉新(北京)科技股份公司,未經恒安嘉新(北京)科技股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011635949.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種具有藥物保護功能的醫療護理盤
- 下一篇:一種螺栓被連接件剛度的確認方法





