[發明專利]基于偽彩色時頻圖像及卷積網絡的環境聲音識別方法有效
| 申請號: | 202011299987.3 | 申請日: | 2020-11-18 |
| 公開(公告)號: | CN112652326B | 公開(公告)日: | 2023-07-04 |
| 發明(設計)人: | 王靖宇;張彥華;蘇雨;張科;王霰禹;王林;馬振宇;謝方園;王紅梅 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G10L25/30 | 分類號: | G10L25/30;G10L21/0216;G10L21/0232;G06F18/24;G06F18/21;G06N3/0464;G06N3/08 |
| 代理公司: | 西安凱多思知識產權代理事務所(普通合伙) 61290 | 代理人: | 康進興 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 彩色 圖像 卷積 網絡 環境 聲音 識別 方法 | ||
1.一種基于偽彩色時頻圖像及深度卷積神經網絡的魯棒環境聲音信號識別方法,其特征在于,包括以下步驟:
步驟1:計算模態數為K時各模態信號uk及相應的中心頻率ωk:
其中,f表示輸入的聲音信號,n表示迭代次數,τ為噪聲容限,λ為拉格朗日乘子,ζ為無約束變分問題,{}表示集合;
步驟2:計算相鄰模態信號中心頻率的差分值
Dk=ωk+1(t)-ωk(t)?k=1,...,K-1?(4)
λk=Dk+1/Dk?k=1,...,K-2?(5)
其中,Dk為中心頻率差值,λk中心頻率差分值;
步驟3;確定最優分解個數K
滿足終止條件時,最優分解個數Kbest=K-1;
步驟4去除噪聲分量后計算各模態信號的時頻分布:
其中,h(τ)為高斯核函數,表示對頻率的二維卷積,imfn為第n個模態分量信號,pwvdn(t,f)為第n個IMF的PWVD時頻圖;
步驟5重構得到灰度時頻圖
步驟6引入閾值并進行歸一化
PWVD(t,f)=max[PWVD(t,f)-max(PWVD),-80dB]?(9)
步驟7非線性變換得到偽彩色時頻圖
Mc(f,t)=hc(G(t,f))?c=red,green,blue?(11)
其中,Mc(f,t)為第c個單色圖像,hc為第c個單色圖像的非線性映射函數;灰度圖映射到hsv偽彩色時頻圖的三個通道所對應的非線性變換為:
參數{l2,l1,u1,u2}在三個通道下的值分別為:
得到偽彩色時頻圖后,利用Lancazos(a=3)插值算法將時頻圖像大小調整為512×512;
步驟8:構建深度卷積神經網絡。
2.如權利要求1所述的一種基于偽彩色時頻圖像及深度卷積神經網絡的魯棒環境聲音信號識別方法,其特征在于,所述步驟1中,
ζ公式及迭代終止條件為:
其中,α為二次懲罰因子,δ(t)為單位脈沖函數,j為虛數,*表示卷積運算,e為收斂條件,表示對t求偏導。
3.如權利要求1所述的一種基于偽彩色時頻圖像及深度卷積神經網絡的魯棒環境聲音信號識別方法,其特征在于,所述步驟8中,神經網絡共包含26層,其中包含7層卷積層,9層激活層,7層池化層,3層全連接層,深度卷積神經網絡的輸入為尺寸為512×512的RGB三通道彩色圖像,每一層卷積層都加入了ReLU激活函數和批標準化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011299987.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:蒸鍍裝置及蒸鍍方法
- 下一篇:一種石墨柱用石墨粉自動上柱設備
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





