[發明專利]一種有效的海洋哺乳動物聲音自動檢測和分類方法有效
| 申請號: | 202210817343.1 | 申請日: | 2022-07-12 |
| 公開(公告)號: | CN115188387B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 李丹陽;李軍;蔣凱林;鄭興澤;李焦;明揚;李林成;謝天宇 | 申請(專利權)人: | 四川農業大學 |
| 主分類號: | G10L17/26 | 分類號: | G10L17/26;G10L17/02;G10L17/18;G10L17/04;G10L17/06;G10L25/24;G10L25/03;G10L25/30;G06F18/241;G06F18/2415;G06N3/0464;G06N3/047;G06N3/08 |
| 代理公司: | 成都巾幗知識產權代理有限公司 51260 | 代理人: | 邢偉 |
| 地址: | 625000 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 有效 海洋 哺乳動物 聲音 自動檢測 分類 方法 | ||
1.一種有效的海洋哺乳動物聲音自動檢測和分類方法,其特征在于:所述自動檢測和分類方法包括:
將沃特金斯海洋哺乳動物聲音數據庫中的音頻數據和實地采集的海洋哺乳動物音頻數據通過單樣本變分自編碼器進行數據增強處理;
從經過數據增強后的音頻數據中提取出梅爾倒譜系數和起始強度包絡進行特征拼接得到第一輸入特征,通過音頻指紋提取的方式從數據增強后的音頻數據中提取出第二輸入特征的音頻指紋特征;
將梅爾頻率倒譜系數和音頻指紋特征輸入到雙路融合MG-ResFormer網絡中,輸出得到兩路對樣本類別概率進行預測的結果,對兩路預測結果進行融合得到對海洋哺乳動物檢測和分類的最終預測結果。
2.根據權利要求1所述的一種有效的海洋哺乳動物聲音自動檢測和分類方法,其特征在于:所述通過音頻指紋提取的方式從數據增強后的音頻數據中提取出第二輸入特征的音頻指紋特征包括:
將音頻數據劃分為多個相同大小的原子幀,并對原子幀的數據進行傅里葉變換計算其頻譜信息;
將計算得到的原子頻譜劃分為多個頻譜帶,對每個頻譜帶進行計算得到能量塊,并將所有能量塊進行組合得到表示原子頻譜能量信息的二維矩陣;
對二維矩陣進行差分計算,通過捕捉每一個能量塊與其鄰近能量塊的方式得到一個只含有0和1的01矩陣;
將二維矩陣和蘊含生物發聲信息的01矩陣進行拼接得到音頻指紋特征。
3.根據權利要求1所述的一種有效的海洋哺乳動物聲音自動檢測和分類方法,其特征在于:所述雙路融合MG-ResFormer網絡包括MG-Resnet網絡模型、MG-Transformer網絡模型和融合層;所述梅爾頻率倒譜系數輸入到MG-?Transformer網絡模型中得到MG-Transformer網絡模型對樣本的概率矩陣,所述音頻指紋特征輸入到MG-Resnet網絡中得到MG-Resnet網絡模型對樣本的概率矩陣,所述融合層對兩個網絡模型輸出的概率矩陣進行融合得到對海洋哺乳動物檢測和分類的最終預測結果。
4.根據權利要求3所述的一種有效的海洋哺乳動物聲音自動檢測和分類方法,其特征在于:所述MG-Resnet網絡模型包括五個卷積層模塊、一個池化層、兩個全連接層、一個粗細粒度組合模塊,首先通過第一個卷積層模塊對輸入的音頻指紋特征進行7×7卷積,通過分別包含了兩個build-block的第二卷積層到第五卷積層進行殘差卷積后再進行平均池化,然后經過兩個并行的全連接層后將得到的兩個輸出輸入到粗細粒度組合層,最后得到對樣本的概率矩陣。
5.根據權利要求4所述的一種有效的海洋哺乳動物聲音自動檢測和分類方法,其特征在于:所述MG-Transformer網絡模型首先對輸入的梅爾頻率倒譜系數進行池化以降低特征對不同位置的敏感程度,然后輸入到編碼層中通過多頭注意力機制提取不同的特征信號,并對特征進行切分以增強模型對全局特征的關注力,通過兩個線性層分別提取粗粒度和細粒度概率,最后輸入到粗細粒度組合層得到樣本的概率矩陣。
6.根據權利要求3所述的一種有效的海洋哺乳動物聲音自動檢測和分類方法,其特征在于:所述融合層對兩個網絡模型輸出的概率矩陣進行融合得到對海洋哺乳動物檢測和分類的最終預測結果包括:
在融合層中設置9個神經元,兩個網絡模型輸出的9種類別的概率值分別經過9個神經元與9個偽神經元;
其中一路網絡模型輸出的類別概率值直接與9個神經元進行相乘操作,另一路網絡模型輸出的類別概率值與9個偽神經元相乘,再將得到的兩組概率值相加進行歸一化操作得到最終的概率。
7.根據權利要求5所述的一種有效的海洋哺乳動物聲音自動檢測和分類方法,其特征在于:所述MG-Transformer網絡模型和MG-Resnet網絡模型中通過粗細粒度組合層得到樣本額概率矩陣包括:
MG-Resnet網絡模型中通過兩個并行的全連接層分別映射出長度為細粒度類別數量和粗粒度類別數量的張量,MG-Transformer網絡模型中通過兩個并行的線性層分別映射出長度為細粒度類別數量和粗粒度類別數量的張量;
粗細粒度組合層中的粗粒度層對輸入數據通過softmax函數得到樣本所屬粗粒度類別的概率,細粒度層對輸入數據進行分組,將屬于同一粗粒度類別的細粒度數據劃分為一組,并對每組進行softmax操作,最終將得到粗粒度概率與對應細粒度概率相乘得到類別概率信息;
通過類殘差結構對細粒度層的輸入直接進行softmax運算并賦予ε后與所在的矩陣進行運算即,表示對細粒度層的輸入直接進行softmax運算得到的概率;
最后將進行歸一化得到樣本最終的概率矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川農業大學,未經四川農業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210817343.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于免疫特征的腸癌分子分型方法和裝置
- 下一篇:一種閥門及其智能組裝機





