[發明專利]一種基于神經網絡模型的會議終端語音降噪方法有效
| 申請號: | 201810934162.0 | 申請日: | 2018-08-16 |
| 公開(公告)號: | CN109065067B | 公開(公告)日: | 2022-12-06 |
| 發明(設計)人: | 薛建清;陳東敏;劉敏;何志輝 | 申請(專利權)人: | 福建星網智慧科技有限公司 |
| 主分類號: | G10L21/0216 | 分類號: | G10L21/0216;G10L21/0232;G10L25/30;G10L25/24;G10L25/18 |
| 代理公司: | 福州市鼓樓區京華專利事務所(普通合伙) 35212 | 代理人: | 林云嬌 |
| 地址: | 361000 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 模型 會議 終端 語音 方法 | ||
1.一種基于神經網絡模型的會議終端語音降噪方法,其特征在于:包括如下步驟:
步驟1、會議終端設備對音頻文件進行采集,生成時域的數字音頻信號,該時域的數字音頻信號混有語音信號和噪聲信號;
步驟2、將該時域的數字音頻信號分幀并進行短時傅里葉變換后由時域轉到頻域;
步驟3、根據人的聽覺特性,將頻域的幅度譜映射到頻帶中,進而求其梅爾倒譜系數;
步驟4、利用梅爾倒譜系數計算出一階差分系數以及二階差分系數,在每個頻帶上計算出基音相關系數,再提取時域的數字音頻信號的基音周期特征和VAD特征,將梅爾倒譜系數、一階差分系數、二階差分系數、基音相關系數、基音周期特征和VAD特征作為音頻的輸入特征參數;
步驟5、將音頻的輸入特征參數作為神經網絡模型的輸入,將一階差分系數、二階差分系數、基音相關系數、基音周期特征和VAD特征用來離線訓練神經網絡,使其學習到生成降噪語音的頻帶增益,訓練好的權重固化出來,供每次算法調用;
步驟6、使用具有長短期記憶的神經網絡模型學習后產生頻帶增益并輸出,將輸出的頻帶增益通過線性插值的方式映射到頻譜,并得到頻譜上每個頻點的增益,再加上時域的數字音頻信號的相位信息,通過傅里葉逆變換,最終還原成降噪后的語音信號。
2.如權利要求1所述的一種基于神經網絡模型的會議終端語音降噪方法,其特征在于:所述步驟2具體為:
將該時域的數字音頻信號進行分幀,設置每10ms為一幀,共N幀,N為正整數;在第1幀前面設置第0幀作為補償幀,在第N幀后面設置第N+1幀作為補償幀,從第1幀開始至第N幀每次處理當前幀和前一幀共20ms的數字音頻信號,相鄰幀之間具有10ms的重疊,從第1幀至第N幀的每一幀都進行短時傅里葉變換處理兩次以加強算法的可靠性,第1幀至第N幀都處理完畢后就完成了由時域的數字音頻信號到頻域的數字音頻信號的轉變。
3.如權利要求1所述的一種基于神經網絡模型的會議終端語音降噪方法,其特征在于:所述步驟3具體為:
使用梅爾尺度模擬人耳對頻帶的非線性感知,從低頻到高頻這一段頻帶內按臨界帶寬的大小由密到稀安排一組帶通濾波器,每個帶通濾波器對輸入的頻域的數字音頻信號進行濾波;將每個帶通濾波器輸出的信號能量作為頻域的數字音頻信號的基本特征,對該基本特征計算其梅爾倒譜系數。
4.如權利要求1所述的一種基于神經網絡模型的會議終端語音降噪方法,其特征在于:所述步驟4中利用梅爾倒譜系數計算出一階差分系數以及二階差分系數,具體為:
一階差分系數的計算可以采用公式(1):
公式(1)中,dt表示第t個一階差分系數;Ct表示第t個梅爾倒譜系數;Ct+1表示第t+1個梅爾倒譜系數;Ct-1表示第t-1個梅爾倒譜系數;Ct-k表示第t-k個梅爾倒譜系數;Q表示梅爾倒譜系數的階數,取1;K表示一階導數的時間差;k表示求和公式的一個遍歷值;
二階差分系數的計算可以采用公式(2):
公式(2)中,nt表示第t個二階差分系數;dt表示第t個一階差分系數;dt+1表示第t+1個一階差分系數;dt-1表示第t-1個一階差分系數;dt-k表示第t-k個一階差分系數;Q表示梅爾倒譜系數的階數,取2;K表示二階導數的時間差;k表示求和公式的一個遍歷值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建星網智慧科技有限公司,未經福建星網智慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810934162.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種通話控制方法、裝置及設備
- 下一篇:音頻處理方法、裝置及存儲介質





