[發明專利]一種音頻噪聲檢測方法及裝置有效
| 申請號: | 202010271851.5 | 申請日: | 2020-04-08 |
| 公開(公告)號: | CN111477248B | 公開(公告)日: | 2023-07-28 |
| 發明(設計)人: | 張斌;趙偉峰 | 申請(專利權)人: | 騰訊音樂娛樂科技(深圳)有限公司 |
| 主分類號: | G10L25/30 | 分類號: | G10L25/30;G10L25/60;G06N3/0442;G06N3/048;G06N3/08;G10L25/03 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 熊永強;杜維 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 音頻 噪聲 檢測 方法 裝置 | ||
本申請實施例提供了一種音頻噪聲檢測方法及相關裝置,其中,一種音頻噪聲檢測方法,可包括:獲得音頻數據并分段對所述音頻數據進行特征提取,得到分段后每個音頻數據段的特征數據;將所述每個音頻數據段的特征數據輸入至目標檢測模型中,獲得所述每個音頻數據段的檢測結果,其中,所述目標檢測模型包括深度神經網絡以及與所述深度神經網絡連接的長短期記憶網絡;根據所述每個音頻數據段的檢測結果,得到所述音頻數據的檢測結果。實施本申請實施例可以將DNN和LSTM混合網絡結構應用于音頻噪聲活性檢測,且使用深度學習的方式進行檢測,能同時保證檢測的準確率和召回率。
技術領域
本申請涉及語音識別技術領域,尤其涉及一種音頻噪聲檢測方法及裝置。
背景技術
目前針對音頻質量缺陷種類繁多,有噪聲類(喀嚓聲、突發噪聲、直流偏置、電流聲、嘶聲)、靜音類(短空白、長空白)、品質類(假雙聲道、頻譜過低)、音量類(音量過大或過小、長溢出)等。這些噪聲缺陷通過人耳主觀感受很容易辨別,然而對于數量巨大的音頻數據并不可能使用人工針對每一個音頻數據都進行檢查判別,目前關于音頻噪聲缺陷檢測的方案都是基于傳統信號的變換處理,這種處理方式受限于大量人工設置的超參數,例如:幀長、偏移、時長、相關閾值等。該種方式僅能解決特定場景的缺陷,泛化能力不高,同時準確率低,召回率不高,很難運用于實際檢測項目中。
發明內容
鑒于上述問題,提出了本申請以便提供一種克服上述問題或者至少部分地解決上述問題的一種音頻噪聲檢測方法及裝置。
第一方面,本申請實施例提供了一種音頻噪聲檢測方法,可包括:
獲得音頻數據,其中所述音頻數據包括多幀音頻幀;
分段對所述音頻數據進行特征提取,得到分段后每個音頻數據段的特征數據;
將所述每個音頻數據段的特征數據輸入至目標檢測模型中,獲得所述每個音頻數據段的檢測結果,其中,所述目標檢測模型包括深度神經網絡以及與所述深度神經網絡連接的長短期記憶網絡,且所述長短期記憶網絡使用所述每個音頻數據段中時序關聯的音頻幀對所述音頻數據段進行檢測;
根據所述每個音頻數據段的檢測結果,得到所述音頻數據的檢測結果,其中所述檢測結果用于指示所述音頻數據是否包含噪聲。
通過第一方面,本申請實施例使用深度學習的方案,分段對音頻數據進行特征提取,獲得所述音頻數據分段后每個音頻數據段的特征數據,并將獲得分段后每個音頻數據段的特征數據輸入基于深度神經網絡DNN-長短期記憶網絡LSTM的目標檢測模型中,獲得所述分段后每個音頻數據段的特征數據對應的檢測結果,最后將所述分段后每個音頻數據段的特征數據的檢測結果累加后獲得用于指示所述音頻數據中包含的噪聲大小的檢測結果。綜上所述,本申請實施例通過頻域特征的轉換和提取,然后使用訓練好的深度神經網絡進行檢測,能顯著提高檢測噪聲的準確率和召回率。一方面充分利用DNN特征變換能力,并且利用輸入信息隨時間動態變化規律進行學習,將過去語音幀的判決信息作用于當前幀判決的算法,提出DNN-LSTM混合神經網絡,結合了DNN善于對數據進行非線性變換與LSTM善于對時間序列分析的能力,很好的利用了音頻幀之間的強相關性,相鄰幀的信息對當前幀的影響也被學習關注,相對于單純的使用DNN針對每個獨立的幀進行噪音/非噪音二分類,具有更高的識別準確度,抗干擾能力更強,減少一些特效音頻文件的誤識別操作,綜合學習前后幀之間的相關性進行判斷,進而得出整段音頻文件的噪聲活性(Noise?Activity),即檢測結果。例如:使用本申請實施例可以檢測出曲庫中一定數量的突發噪聲缺陷文件,還能在入庫過程中提前預防,阻止有缺陷問題的音頻文件入庫,大大提高了曲庫的音質,有效的提升了用戶的聽歌體驗。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊音樂娛樂科技(深圳)有限公司,未經騰訊音樂娛樂科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010271851.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據處理方法和相關裝置
- 下一篇:一種多譜CT成像方法





