[發明專利]一種基于卷積神經網絡的異常聲音信號識別方法在審
| 申請號: | 201811350942.7 | 申請日: | 2018-11-14 |
| 公開(公告)號: | CN109473120A | 公開(公告)日: | 2019-03-15 |
| 發明(設計)人: | 姜彥吉;荊德吉;葛少成;郭羽含 | 申請(專利權)人: | 遼寧工程技術大學 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/30;G06N3/08;G06N3/04 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 劉曉嵐 |
| 地址: | 125105 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 卷積神經網絡 異常聲音 信號識別 樣本聲音 樣本 預處理 代價函數計算 反向傳播 權值向量 聲音特征 實際輸出 輸入測試 信號分類 連接層 訓練集 二維 和頻 算法 維度 標簽 采集 驗證 傳遞 更新 監督 學習 | ||
1.一種基于卷積神經網絡的異常聲音信號識別方法,其特征在于:包括以下步驟:
步驟1、通過語音采集系統對聲音進行采集,利用現有的異常聲音庫,共采集爆炸聲、建筑坍塌聲、撞擊聲、警報聲、鈴聲、呼救聲6種異常聲音,每種聲音采集N個樣本,共采集6N個樣本,構成樣本聲音庫,其中包括五種不同的信噪比,分別為0dB、5dB、10dB、15dB與無噪聲;并將采集的樣本利用babble噪聲形成帶噪樣本;
將這些帶噪樣本分為測試集與訓練集兩部分,根據五種不同的信噪比,分別對每種聲音隨機抽取70%作為卷積神經網絡中的訓練集,隨機抽取50%作為網絡中的測試集;
步驟2、對樣本聲音庫中的聲音進行預處理;利用動態時間規整方法將樣本聲音庫中所有異常聲音規整為相同幀數,選擇幀長256個采樣點,幀移為128個采樣點以及漢明窗進行分幀加窗操作,每一幀提取36維MFCC特征參數,其中包括MFCC系數、ΔMFCC和ΔΔMFCC,保證異常樣本數量的特征向量排列成為相同的特征圖輸入到卷積神經網絡;
步驟3、將步驟2預處理的異常聲音信號按照在時間和頻域兩個維度上排列成為二維的聲音特征圖,作為卷積神經網絡模型的輸入,具體方法為:
步驟3.1、將訓練集中的聲音特征圖進行卷積運算操作,將2*2卷積核從左上端開始卷積,每次操作完成后,根據步長為1開始卷積操作,直至遍歷整個聲音特征圖,最后得到一個二維的卷積特征圖;
所述卷積層第l層的j個特征圖的輸出函數如下公式所示:
其中,l表示第l層,即為當前層,l-1即表示前一層;表示第l層的排列順序為j的特征圖;wi,j表示當前層與前一層特征圖的卷積核;表示當前層的排列順序為j的特征圖的偏置;表示前一層第i個特征圖;θ()為激勵函數;M表示當前層特征圖個數;表示當前層第j個特征圖連接前一層特征圖的數量;
步驟3.2、利用最大值采樣方法對步驟3.1得到的卷積特征圖進行處理,減少卷積特征圖的參數數量,如下公式所示:
其中,Ri表示第i個子采樣區域,ai表示在Ri范圍內的特征圖,Si為第i個子采用區域的最大值;最大子采樣法是挑選概率值ai中最大的值作為最終的子采樣結果;
步驟3.3、重復步驟3.1與3.2,得到最終的子采樣結果,并通過全連接層將子采樣結果中的二維向量轉化為一維向量;
所述全連接層的輸入公式如下公式所示:
Hw,b(x)=δ(WTx+b)
其中,Hw,b(x)表示全連接層的輸出,x表示全連接層輸入的一個特征向量,W為全連接層的權值向量;b表示偏置向量,δ()表示全連接層的激勵函數,如下公式所示:
步驟3.4、將全連接層中的一維向量輸入到Softmax分類器中,得到六個預測值,作為最終的分類結果;
步驟4、使用代價函數計算訓練集的實際輸出結果與標簽結果之間的誤差,利用反向傳播算法傳遞差值,并通過權值更新公式更新卷積神經網絡的全連接層中的權值向量W,如下公式所示:
其中,J(W,b)表示代價函數,hw,b(xij)表示樣本的實際輸出值,yi為該樣本的標簽值,m表示訓練集中的語音信號數量,xij表示語音信號中的幅值;
使用監督學習方法訓練卷積神經網絡模型,訓練完后,保存訓練完成的網絡模型,設定監督學習方法的迭代次數為10次;
步驟5、輸入測試集中的數據,計算出識別率,驗證卷積神經網絡模型的準確性。
2.根據權利要求1所述的一種基于卷積神經網絡的異常聲音信號識別方法,其特征在于:步驟1所述將采集的樣本利用babble噪聲形成帶噪樣本,加噪公式如下公式所示:
f(t)=h1*S(t)+h2*n(t)
其中,f(t)表示帶噪聲音信號,S(t)表示未帶噪聲音信號,n(t)表示babble噪聲,h1、h2均為根據信噪比來決定的混合矩陣,*表示線性卷積。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于遼寧工程技術大學,未經遼寧工程技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811350942.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種聲學目標事件監控方法
- 下一篇:語音合成質量測試方法及裝置





