[發明專利]一種基于遷移學習的暴恐音頻檢測方法有效
| 申請號: | 201910238365.0 | 申請日: | 2019-03-27 |
| 公開(公告)號: | CN111755024B | 公開(公告)日: | 2023-02-10 |
| 發明(設計)人: | 何小海;胡鑫旭;周欣;熊淑華;王正勇;吳小強;滕奇志 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G10L25/18 | 分類號: | G10L25/18;G10L25/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610065 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 遷移 學習 音頻 檢測 方法 | ||
本發明將遷移學習技術引入暴恐音頻的判別中。首先采用公開的TUT音頻數據集進行預訓練,然后從網絡和電影中截取暴恐音頻片段組成暴恐音頻庫,保留模型權重并遷移網絡在暴恐音頻庫上繼續訓練,最后在fine?tune后的網絡中增加網絡的層數,添加了一種類似于殘差網絡的結構使其能夠利用更多的音頻信息。實驗結果表明,遷移學習方法有效解決了在暴恐音頻檢測研究中音頻數據集過小而帶來的訓練問題,且改進后的網絡具有更好的檢測率。
技術領域
本發明涉及網絡傳播的音視頻中暴恐音頻的檢測問題,尤其是涉及一種基于遷移學習的暴恐音頻檢測方法。
背景技術
隨著近年來互聯網與電影行業的快速發展,網絡上包含的音視頻信息與日俱增,為用戶所共享的音視頻中不乏包含有暴力恐怖音視頻,這些暴恐音視頻將產生不良的網絡環境,對缺乏判斷力的未成年人產生負面影響。通常情況下,對網絡暴力元素的檢測可以使用視頻或音頻特征,也可以兩者相結合,由于音頻在處理速度上較快于視頻處理速度,對于實時性要求比較高的場景,使用音頻特征的檢測更具優勢。
目前學術界關于暴恐音頻的檢測方法主要基于傳統的機器學習算法,采用SVM分類器或KNN分類器。但由于傳統的機器學習算法在訓練數據較多的時候,需要計算的核矩陣大小也會增大,將會使訓練效率降低,而較少的訓練數據又限制了檢測效果。于是本發明將卷積神經網絡(CNN)應用于暴恐音頻的檢測中,但暴恐音頻來源受限并且數量較少,而CNN往往需要希望有足夠多的數據訓練,于是本發明將遷移學習技術引入暴恐音頻的檢測中。
遷移學習的核心是利用已有的知識,去解決不同但相關領域的問題,即以一個環境中學到的知識為基礎解決另一個環境中的學習任務,考慮到本發明屬于有監督到有監督的類型,于是采用fine-tune的遷移學習方法。在訓練方法中fine-tune基于一個預訓練好的模型,采用相同的網絡結構,使用不同于預訓練好模型的數據,根據所要完成任務的要求,調整輸出,在預訓練好的模型參數上進行再訓練,是一種解決小數據庫訓練的方法。
發明內容
本發明提出了一種基于遷移學習的暴恐音頻檢測方法,首先預訓練網絡得到預訓練模型,然后使用暴恐音頻數據集在預訓練模型上繼續訓練,并改進遷移學習網絡結構。
本發明通過以下技術方案來實現上述目的:
(1)提取音頻對數梅爾頻譜特征;
(2)將TUT音頻數據集作為源音頻數據,在步驟(1)后,預訓練網絡得到預訓練模型;
(3)將暴恐音頻數據集作為目標音頻數據,在步驟(1)后,微調步驟(2)的網絡結構,繼續訓練預訓練模型得到微調后的模型;
(4)在步驟(3)的網絡結構中添加輔助網絡,并將輔助網絡部分的輸出特征與輸入特征聚合在一起共同輸入分類層。
附圖說明
圖1基于遷移學習的暴恐音頻檢測方法總體框架圖;
圖2添加輔助網絡結構的遷移學習方法框圖。
具體實施方式
下面結合附圖對本發明作進一步說明:
提取音頻對數梅爾頻譜特征的具體方法如下:
通過預加重、分幀、加窗、快速傅里葉變換、取絕對值、梅爾濾波、取對數提取音頻對數梅爾頻譜特征。本發明產生對數梅爾頻譜圖的參數為:音頻信號的采樣率為44.1kHz,預加重系數為0.97,采用漢明窗進行分幀,快速傅里葉變換窗口長度為50ms,相鄰窗之間的距離為20ms,每幀包含2205個采樣點,梅爾濾波器的個數為200,最終每個10秒長的音頻轉化為數組形式,維度為200行、500列。
得到預訓練模型的具體方法如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910238365.0/2.html,轉載請聲明來源鉆瓜專利網。





