[發明專利]基于雙輸入互干擾卷積神經網絡的異常語音識別方法有效
| 申請號: | 202110439720.8 | 申請日: | 2021-04-23 |
| 公開(公告)號: | CN113223507B | 公開(公告)日: | 2022-06-24 |
| 發明(設計)人: | 陳里里;白懷偉;余波;胡雪 | 申請(專利權)人: | 重慶交通大學 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L25/51;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京海虹嘉誠知識產權代理有限公司 11129 | 代理人: | 胡博文 |
| 地址: | 400074 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 輸入 干擾 卷積 神經網絡 異常 語音 識別 方法 | ||
1.一種基于雙輸入互干擾卷積神經網絡的異常語音識別方法,其特征在于:包括以下步驟:
S1.采集語音信號,并對語音信號進行分割預處理得到語音樣本;
S2.構建雙輸入互干擾卷積神經網絡,所述雙輸入互干擾卷積神經網絡包括第一卷積單元、第二卷積單元、特征融合單元、全連接單元以及分類輸出單元;
所述第一卷積單元具有5層卷積核,第二卷積單元具有7層卷積核,所述第一卷積單元和第二卷積單元輸入相同的語音樣本,所述第一卷積單元和第二卷積單元向特征融合單元輸出特征提取結果,所述特征融合單元對特征提取結果進行融合處理并輸出至全連接單元;分類輸出單元根據全連接單元輸出的處理后的特征提取結果進行分類識別輸出異常語音。
2.根據權利要求1所述基于雙輸入互干擾卷積神經網絡的異常語音識別方法,其特征在于:步驟S1中,對語音信號進行分割預處理包括:
確定語音信號的最大可分割樣本數量m:
其中,λ為分割重復率,N為語音信號的樣本點個數,L為分割后語音樣本的長度,|·|表示向下取整;
確定每個語音樣本的數據:
data(i)=Raw_data(s(λ,i));
其中,Raw_data表示原始語音數據,data(i)表示某一原始語音信號分割后產生的第i個樣本,s(λ,i)表示區間在[(i-1)λL,(i-1)λL+L]上所有點的集合。
3.根據權利要求1所述基于雙輸入互干擾卷積神經網絡的異常語音識別方法,其特征在于:步驟S2中,對雙輸入互干擾卷積神經網絡采用如下方法進行訓練:
構建損失函數:
其中,m表示每次訓練樣本數量,yj表示第j個邏輯神經元的目標概率,表示第j個邏輯神經元的預測概率,W表示第i層到第i+1層的權重,b表示第i層到第i+1層的偏置;
確定第l層的損失誤差χl:
其中:zl+1表示全連接層l+1層的輸出,f'(x(l))表示對l層的輸出值得激活函數進行求導;
構建卷積單元的最大池轉換函數:
其中,表示l層第i個卷積內核的t神經元的激活值,t∈[(j-1)s,js],s為池化內核的寬度,表示池化操作后的神經元的值;
對最大池轉換函數進行求導:
構建卷積池化部分的反向傳播函數:
其中,f'表示激活函數求導操作;表示l卷積層的輸入對l-1卷積層的輸入求導;
構建反轉誤差矩陣:
其中,rot180表示將卷積內核反轉180度,Wl表示l卷積層中的權重;
對權重和偏置值進行迭代更新:
其中,α為學習率,和分別表示l層中第i個卷積內核的j個位置的權重以及第i個卷積內核對應的偏置;
按照上述步驟,調整權重和偏置值,使得損失誤差達到設定值,則完成對雙輸入互干擾卷積神經網絡的訓練。
4.根據權利要求1所述基于雙輸入互干擾卷積神經網絡的異常語音識別方法,其特征在于:步驟S2中,分類輸出單元采用如下分類函數進行分類處理:
其中,zj表示第j個輸出邏輯神經元的值,t(zj)表示分類函數輸出的預測概率值,zk表示第k個輸出邏輯神經元的值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶交通大學,未經重慶交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110439720.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于PLC的顯示板檢測方法
- 下一篇:一種防滑瓶蓋





