[發(fā)明專利]一種音頻噪聲檢測方法及裝置有效
| 申請?zhí)枺?/td> | 202010271851.5 | 申請日: | 2020-04-08 |
| 公開(公告)號: | CN111477248B | 公開(公告)日: | 2023-07-28 |
| 發(fā)明(設計)人: | 張斌;趙偉峰 | 申請(專利權)人: | 騰訊音樂娛樂科技(深圳)有限公司 |
| 主分類號: | G10L25/30 | 分類號: | G10L25/30;G10L25/60;G06N3/0442;G06N3/048;G06N3/08;G10L25/03 |
| 代理公司: | 廣州三環(huán)專利商標代理有限公司 44202 | 代理人: | 熊永強;杜維 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 音頻 噪聲 檢測 方法 裝置 | ||
1.一種音頻噪聲檢測方法,其特征在于,包括:
獲得音頻數(shù)據(jù),其中所述音頻數(shù)據(jù)包括多幀音頻幀;
分段對所述音頻數(shù)據(jù)進行特征提取,得到分段后每個音頻數(shù)據(jù)段的特征數(shù)據(jù);
將所述每個音頻數(shù)據(jù)段的特征數(shù)據(jù)輸入至目標檢測模型中,獲得所述每個音頻數(shù)據(jù)段的檢測結果,其中,所述目標檢測模型包括深度神經(jīng)網(wǎng)絡以及與所述深度神經(jīng)網(wǎng)絡連接的長短期記憶網(wǎng)絡,且所述長短期記憶網(wǎng)絡使用所述每個音頻數(shù)據(jù)段中時序關聯(lián)的音頻幀對所述音頻數(shù)據(jù)段進行檢測;
根據(jù)所述每個音頻數(shù)據(jù)段的檢測結果,得到所述音頻數(shù)據(jù)的檢測結果,其中所述檢測結果用于指示所述音頻數(shù)據(jù)是否包含噪聲。
2.根據(jù)權利要求1所述方法,其特征在于,所述分段對音頻數(shù)據(jù)進行特征提取,得到每個音頻數(shù)據(jù)段的特征數(shù)據(jù),包括:
將所述音頻數(shù)據(jù)通過信號處理轉化為頻域特征信號;
將所述頻域特征信號按照時間順序以每組n幀音頻幀的順序分段提取,組成總長度為N的特征數(shù)據(jù)Xtn,其中,N為音頻幀總幀數(shù)除以n幀后取整獲得,n為大于或等于1的正整數(shù),t為大于或等于1且小于或等于N的正整數(shù)。
3.根據(jù)權利要求2所述方法,其特征在于,所述將所述每個音頻數(shù)據(jù)段的特征數(shù)據(jù)輸入至目標檢測模型中,獲得所述每個音頻數(shù)據(jù)段的檢測結果,包括:
從所述總長度為N的特征數(shù)據(jù)Xtn中,按照預設批次大小,將每一批次的多個特征數(shù)據(jù)Xtn依次提取空間特征;
從提取所述空間特征后的所述每一批次的多個特征數(shù)據(jù)Xtn依次進行時域處理;
將進行所述時域處理后的所述每一批次的多個特征數(shù)據(jù)Xtn輸入所述目標檢測模型的輸出層,獲得所述每一批次中的多個特征數(shù)據(jù)Xtn對應的多個檢測結果,所述檢測結果Ytn∈{0,1},其中,若Xtn中含有噪聲,則Ytn=1,否則Ytn=0。
4.根據(jù)權利要求1所述方法,其特征在于,基于所述深度神經(jīng)網(wǎng)絡和所述長短期記憶網(wǎng)絡的所述目標檢測模型,包括第一子模型,其中,所述第一子模型為:
音頻數(shù)據(jù)段中的每一幀音頻幀的特征數(shù)據(jù)按時間順序依次作為第一層深度神經(jīng)網(wǎng)絡的輸入,第一層深度神經(jīng)網(wǎng)絡的輸出作為第二層長短期記憶網(wǎng)絡的輸入,且將前一幀音頻幀對應的第二層長短期記憶網(wǎng)絡的輸出作為后一幀音頻幀對應的第二層長短期記憶網(wǎng)絡的輸入,最后一幀音頻幀對應的第二層長短期記憶網(wǎng)絡的輸出作為第三層深度神經(jīng)網(wǎng)絡的輸入,所述第三層深度神經(jīng)網(wǎng)絡的輸出作為第四層sigmoid的輸入,所述第四層sigmoid的輸出檢測結果;
其中,所述將所述每個音頻數(shù)據(jù)段的特征數(shù)據(jù)輸入至目標檢測模型中,獲得所述每個音頻數(shù)據(jù)段的檢測結果包括:按時間順序依次將每個音頻數(shù)據(jù)段中的每一幀音頻幀均先通過所述第一層深度神經(jīng)網(wǎng)絡,然后將所述第一層深度神經(jīng)網(wǎng)絡處理后的每一幀音頻幀以及所述每一幀音頻幀對應前一幀的相關行輸入所述第二層長短期記憶網(wǎng)絡;并將所述第二層長短期記憶網(wǎng)絡處理后的最后一幀音頻幀輸入到所述第三層深度神經(jīng)網(wǎng)絡中,第三層深度神經(jīng)網(wǎng)絡的輸出結果輸入至第四層sigmoid中,獲得所述每個音頻數(shù)據(jù)段的檢測結果,其中,所述第四層sigmoid的目標函數(shù)為sigmoid交叉熵損失函數(shù)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊音樂娛樂科技(深圳)有限公司,未經(jīng)騰訊音樂娛樂科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010271851.5/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種數(shù)據(jù)處理方法和相關裝置
- 下一篇:一種多譜CT成像方法





