[發明專利]基于時頻分割及卷積神經網絡的魯棒環境聲音識別方法在審
| 申請號: | 202011296063.8 | 申請日: | 2020-11-18 |
| 公開(公告)號: | CN112419258A | 公開(公告)日: | 2021-02-26 |
| 發明(設計)人: | 王靖宇;張彥華;蘇雨;張科;王霰禹;馬振宇;王林;王紅梅;謝方園 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G06T7/00 | 分類號: | G06T7/00;G06T7/11;G06T7/136;G06N3/04;G06N3/08;G10L25/30;G10L25/51 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 華金 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 分割 卷積 神經網絡 環境 聲音 識別 方法 | ||
1.一種基于時頻分割及卷積神經網絡的魯棒環境聲音識別方法,其特征在于,包括以下步驟:
步驟1:利用偽Wigner-Vile時頻分布得到灰度時頻圖像,包括以下子步驟:
步驟1.1:利用偽Wigner-Vile分布的定義,得到環境聲音信號的時頻分布:
其中,h(τ)為高斯核函數,*表示二維卷積,imf表示環境聲音信號,pwvd(t,f)表示PWVD時頻圖像;
步驟1.2:引入閾值,計算對數頻譜:
PWVD(t,f)=log(max[PWVD(t,f)-max(PWVD),-80dB])
步驟1.3:通過歸一化,得到灰度時頻圖:
其中,G(t,f)表示歸一化后的灰度時頻圖像;
步驟2:將灰度圖轉換為偽彩色時頻圖:
Mc(f,t)=hc(G(t,f))c=red,green,blue
其中,Mc(f,t)為第c個單色圖像,hc為第c個單色圖像的非線性映射函數;將灰度圖映射到hot偽彩色時頻圖對應的非線性變換為:
步驟3:根據步驟2得到的三個通道下的參數值,分別能夠得到亮度圖和顏色圖;
其中亮度圖為:
I=(r+g+b)/3
其中,r,g,b為偽彩色時頻圖的三個通道;
經過調整后的各通道顏色圖為:
R=r-(g+b)/2
G=g-(r+b)/2
B=b-(r+g)/2
Y=(r+g)/2-|r-g|/2-b
其中,R,G,B,Y分別表示紅色、綠色、藍色、黃色四種顏色通道;
步驟4:根據步驟3得到的亮度顯著圖,計算得到亮度差分顯著圖;
SI(x,y)=|Iμ-I(x,y)|
其中,Iμ表示亮度差分顯著圖的像素平均值;
根據顏色圖,得到顏色差分顯著圖:
Sn(x,y)=|μn-Cn(x,y)|n=R、G、B、Y
其中,μn表示相應顏色圖的像素平均值,Sn(x,y)表示相應顏色通道的顏色顯著圖;
步驟5:將步驟四得到的亮度差分顯著圖和顏色差分顯著圖進行非線性融合,得到最終顯著圖為:
S(x,y)=max(SI(x,y),SR(x,y),SG(x,y),SB(x,y),SY(x,y))
步驟6:進行時頻圖事件聲區域提取,包括以下子步驟:
步驟6.1:根據時頻顯著圖S(x,y)的像素值確定顯著區域分割的閾值:
其中,N、M分別為時頻顯著圖的高、寬;
步驟6.2:閾值法進行時頻圖分割,得到分割后的二值圖像Sseg(x,y):
Sseg中像素值為1的區域即為事件聲在時頻圖中的分布區域,像素值為0的區域即為背景噪聲的分布區域;
步驟6.3:根據步驟6.2中,閾值法分割得到二值圖像;
步驟6.4:對時頻圖事件聲區域進行提取:
其中,imgR,imgG,imgB表示偽彩色時頻圖中三個通道對應的像素點;
步驟7:利用基于神經網絡的識別模型進行環境聲音信號的訓練與識別。
2.如權利要求1所述的一種基于時頻分割去躁及深度卷積神經網絡的魯棒環境聲音信號識別方法,其特征在于,所述得到偽彩色時頻圖后,利用Lancazos插值算法將時頻圖像大小調整。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011296063.8/1.html,轉載請聲明來源鉆瓜專利網。





