[發(fā)明專利]音頻檢測方法及裝置在審
| 申請?zhí)枺?/td> | 202011211792.9 | 申請日: | 2020-11-03 |
| 公開(公告)號: | CN112289340A | 公開(公告)日: | 2021-01-29 |
| 發(fā)明(設(shè)計)人: | 陳佳路;王曉紅;劉魯鵬;元海明;高強;夏龍;郭常圳 | 申請(專利權(quán))人: | 北京猿力未來科技有限公司 |
| 主分類號: | G10L25/03 | 分類號: | G10L25/03;G10L25/27;G10L25/60 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 劉曉楠 |
| 地址: | 100102 北京市朝陽區(qū)廣順南大*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音頻 檢測 方法 裝置 | ||
1.一種音頻檢測方法,其特征在于,包括:
獲取待檢測音頻文件;
將所述待檢測音頻文件輸入至噴麥檢測模型進行處理,獲得所述待檢測音頻文件中的噴麥音頻區(qū)間和所述噴麥音頻區(qū)間的噴麥概率;
根據(jù)所述噴麥音頻區(qū)間和所述噴麥概率確定所述待檢測音頻文件中的噴麥音頻片段。
2.根據(jù)權(quán)利要求1所述的音頻檢測方法,其特征在于,所述噴麥檢測模型通過如下方式訓(xùn)練:
獲取樣本音頻文件,并對所述樣本音頻文件進行格式化處理,獲得標(biāo)準(zhǔn)音頻文件;
將所述標(biāo)準(zhǔn)音頻文件切分為多個音頻區(qū)間,按照所述多個音頻區(qū)間的屬性信息對所述多個音頻區(qū)間添加噴麥標(biāo)簽或正常語音標(biāo)簽;
基于所述多個音頻區(qū)間和添加標(biāo)簽的多個音頻區(qū)間組成樣本音頻區(qū)間對,利用所述樣本音頻區(qū)間對初始噴麥檢測模型進行訓(xùn)練,獲得所述噴麥檢測模型。
3.根據(jù)權(quán)利要求1所述的音頻檢測方法,其特征在于,所述將所述待檢測音頻文件輸入至噴麥檢測模型進行處理,獲得所述待檢測音頻文件中的噴麥音頻區(qū)間和所述噴麥音頻區(qū)間的噴麥概率,包括:
基于預(yù)設(shè)幀長的處理窗以及預(yù)設(shè)時間的幀移對所述待檢測音頻文件進行變換,獲得所述待檢測音頻文件對應(yīng)的幅度譜;
按照所述幅度譜在所述待檢測音頻文件中提取低頻特征輸入至所述噴麥檢測模型進行處理,獲得所述噴麥音頻區(qū)間和所述噴麥概率。
4.根據(jù)權(quán)利要求1所述的音頻檢測方法,其特征在于,所述根據(jù)所述噴麥音頻區(qū)間和所述噴麥概率確定所述待檢測音頻文件中的噴麥音頻片段,包括:
確定所述噴麥音頻區(qū)間中的多個噴麥音頻子區(qū)間,以及根據(jù)所述噴麥概率確定所述多個噴麥音頻子區(qū)間中的噴麥音頻子區(qū)間對應(yīng)的子噴麥概率;
將所述多個噴麥音頻子區(qū)間中的噴麥音頻子區(qū)間對應(yīng)的子噴麥概率與預(yù)設(shè)概率閾值進行比較;
根據(jù)比較結(jié)果選擇大于等于所述預(yù)設(shè)概率閾值的噴麥音頻子區(qū)間組成所述待檢測音頻文件中的噴麥音頻片段。
5.根據(jù)權(quán)利要求1所述的音頻檢測方法,其特征在于,所述根據(jù)所述噴麥音頻區(qū)間和所述噴麥概率確定所述待檢測音頻文件中的噴麥音頻片段,包括:
確定所述噴麥音頻區(qū)間中的多個噴麥音頻子區(qū)間,以及根據(jù)所述噴麥概率確定所述多個噴麥音頻子區(qū)間中的噴麥音頻子區(qū)間對應(yīng)的子噴麥概率;
將所述多個噴麥音頻子區(qū)間中的噴麥音頻子區(qū)間對應(yīng)的子噴麥概率與預(yù)設(shè)概率閾值進行比較,根據(jù)比較結(jié)果確定多個目標(biāo)噴麥音頻子區(qū)間;
在所述待檢測音頻文件中提取所述多個目標(biāo)噴麥音頻子區(qū)間組成持續(xù)噴麥音頻子區(qū)間;
基于所述持續(xù)噴麥音頻子區(qū)間確定所述待檢測音頻文件中的噴麥音頻片段。
6.根據(jù)權(quán)利要求5所述的音頻檢測方法,其特征在于,所述在所述待檢測音頻文件中提取所述多個目標(biāo)噴麥音頻子區(qū)間組成持續(xù)噴麥音頻子區(qū)間,包括:
確定所述多個目標(biāo)噴麥音頻子區(qū)間在所述待檢測音頻文件中的音頻位置,以及確定所述多個目標(biāo)噴麥音頻子區(qū)間對應(yīng)的音頻時長;
根據(jù)所述音頻位置和所述音頻時長,判斷所述多個目標(biāo)噴麥音頻子區(qū)間在時間維度上是否連續(xù);
若是,則將所述多個目標(biāo)噴麥音頻子區(qū)間進行整合,獲得所述持續(xù)噴麥音頻子區(qū)間。
7.根據(jù)權(quán)利要求6所述的音頻檢測方法,其特征在于,所述基于所述持續(xù)噴麥音頻子區(qū)間確定所述待檢測音頻文件中的噴麥音頻片段,包括:
對所述持續(xù)噴麥音頻子區(qū)間進行分幀處理獲得多個目標(biāo)音頻幀;
將所述多個目標(biāo)音頻幀分別進行噴麥檢測,并將檢測結(jié)果與噴麥檢測閾值進行比較,根據(jù)比較結(jié)果組成噴麥音頻序列;
在所述噴麥音頻序列的持續(xù)時長大于時長閾值的情況下,根據(jù)組成所述噴麥音頻序列的音頻幀確定所述待檢測音頻文件中的噴麥音頻片段。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京猿力未來科技有限公司,未經(jīng)北京猿力未來科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011211792.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





