[發明專利]基于聽覺濾波器組和卷積神經網絡的全局信噪比估計方法在審
| 申請號: | 202110025619.8 | 申請日: | 2021-01-08 |
| 公開(公告)號: | CN112885375A | 公開(公告)日: | 2021-06-01 |
| 發明(設計)人: | 王龍標;李楠;黨建武;張蘇林;于波 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G10L25/60 | 分類號: | G10L25/60;G10L25/30 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 程小艷 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 聽覺 濾波器 卷積 神經網絡 全局 估計 方法 | ||
1.基于聽覺濾波器組和卷積神經網絡的全局信噪比估計方法,其特征在于,包括:
1)對含噪語音利用bark尺度利用高通濾波器和低通濾波器將音頻分割成不同的子帶,并計算每個子帶的能量;
2)構建卷積神經網絡,計算每個子帶中噪聲比例,進而計算子帶中噪聲能量;
3)計算全局SNR;
具體步驟如下:
1)基于Bark尺度的濾波器組
使用多子帶方法,將含噪語音分為不同頻率的子帶;
使用基于Bark刻度的濾波器組,濾波器組由具有恒定帶寬的帶通濾波器組成,根據Bark尺度,濾波器的截止頻率分別設置為[100 200 300 400 510 630 770 920 1080 12701480 1720 2000 2320 2700 3150 3700],語音的采樣頻率在這個實驗中被降到8000赫茲,這個過程可以用以下函數表示:y(k,n)=BFB(y(n))
其中,n為采樣點的個數,k為將音頻分割成K個子帶后第k個子帶,BFB表示Bark濾波器組;
在分割成不同子帶后還需要計算每個子帶的能量,如下所示:Etotal(k,n)=|y(k,n)|2
2)子帶噪聲能量的計算
在訓練階段將子帶能量輸入到提出的子帶噪聲估計網絡中來估計子帶噪聲能量比例,訓練過程中的標簽通過如下公式計算而得:
其中,R=[r(1),r(2),...,r(K)]N為一幀語音中所含有采樣點的總數,r(k)為第k個子帶的噪聲能量占比,訓練過程中通過訓練神經網絡gθ使得的值最小。;
其中,R為每個子帶噪聲能量占比的集合;g為所提出的子帶噪聲能量估計網絡(SNENet);
在解碼/估計階段,直接將測試數據的子帶能量Ek,total輸入到訓練好的網絡中就得到估計的子帶噪聲能量占比,通過將子帶噪聲能量占比和子帶總能量相乘就可以得到最終的子帶中噪聲能量,如下公式所示:
其中,為估計的第k個子帶的噪聲占比,ET(k)為求得的每個子帶中噪聲能量的大小;
3)全局信噪比的計算
語音波形的功率由所有子帶的功率之和計算得出,最后全局SNR由所有子帶的功率融合得到如下所示:
其中,PS(k)為第k個子帶中所有純凈語音的能量和,PN(k)為第k個子帶中所有噪聲的能量
和,通過將這些子帶能量和相加就可以得到最終所估計出的全局SNR即);
其中,PN(k)由計算得出;LN為當大于P時所有語音幀的個數,當大于某一值時計算全局信噪比最準確,L為語音幀的總數;
最后,通過將所有能量和所有噪聲的能量相減就得到PS(k)。
2.根據權利要求1所述的基于聽覺濾波器組和卷積神經網絡的全局信噪比估計方法,其特征在于,在SNENet中使用CNN編解碼器,不僅用于全連接層,還使用另一種卷積網絡結構,即CNN編解碼器C-ED網絡,其中C-ED由卷積、平均池化、批處理規范化和ReLU層組成;
編碼器和解碼器濾波器的數目是對應的,編碼器濾波器的數目逐漸增加,解碼器濾波器的數目逐漸減少;
卷積神經網絡中卷積層的通道數對應不同的子帶,平均池化層用來減少參數的個數,在CNN模型中設置了不同的卷積核來學習不同的上下文模式。
3.根據權利要求1所述的基于聽覺濾波器組和卷積神經網絡的全局信噪比估計方法,其特征在于,在SNENet中使用一種基于全連接層的網絡;后映射網絡由兩層全連通層組成,其中激活函數為ReLU;最后通過一層激活函數為Sigmoid的全連接網絡,就可以得到最終的子帶能量噪聲占比。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110025619.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種無刻度鏜刀
- 下一篇:一種鋯管靶及生產方法





