[發(fā)明專利]音頻識別方法、裝置及計算機(jī)存儲介質(zhì)有效

申請?zhí)枺?/td>	201711116680.3	申請日：	2017-11-13
公開（公告）號：	CN107886956B	公開（公告）日：	2020-12-11
發(fā)明（設(shè)計）人：	勞振鋒	申請（專利權(quán)）人：	廣州酷狗計算機(jī)科技有限公司
主分類號：	G10L17/00	分類號：	G10L17/00;G10L17/02;G06F16/63;G10L25/51
代理公司：	北京三高永信知識產(chǎn)權(quán)代理有限責(zé)任公司 11138	代理人：	郭晶
地址：	510660 廣東省廣***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	音頻識別方法裝置計算機(jī) 存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種音頻識別方法，其特征在于，所述方法包括：

從待識別的目標(biāo)音頻中獲取多個音頻片段；

從所述多個音頻片段中確定目標(biāo)片段，所述目標(biāo)片段為對人聲錄制得到的音頻片段；

當(dāng)所述多個音頻片段中的目標(biāo)片段的總個數(shù)大于或等于指定個數(shù)時，確定所述目標(biāo)音頻為對人聲錄制得到的音頻；或者，

當(dāng)所述多個音頻片段中的目標(biāo)片段中存在至少兩組目標(biāo)片段時，確定所述目標(biāo)音頻為對人聲錄制得到的音頻，所述至少兩組目標(biāo)片段中的每組目標(biāo)片段包括至少兩個連續(xù)的音頻片段。

2.如權(quán)利要求1所述的方法，其特征在于，所述從所述多個音頻片段中確定目標(biāo)片段，包括：

從所述多個音頻片段中選擇出一個音頻片段，對選擇出的音頻片段執(zhí)行以下處理，直至處理完所述多個音頻片段中的每個音頻片段為止：

從選擇出的音頻片段中獲取多個有效音頻幀；

從所述多個有效音頻幀中確定目標(biāo)幀，所述目標(biāo)幀為對人聲錄制得到的音頻幀；

將所述多個有效音頻幀中的目標(biāo)幀的總個數(shù)除以所述多個有效音頻幀的總個數(shù)，得到第一比值；

當(dāng)所述第一比值大于或等于第一指定比值時，確定選擇出的音頻片段為目標(biāo)片段。

3.如權(quán)利要求1所述的方法，其特征在于，所述確定所述目標(biāo)音頻為對人聲錄制得到的音頻，包括：

從所述目標(biāo)音頻中獲取多個有效音頻幀；

從所述多個有效音頻幀中確定目標(biāo)幀；

將所述多個有效音頻幀中的目標(biāo)幀的總個數(shù)除以所述多個有效音頻幀的總個數(shù)，得到第二比值；

當(dāng)所述第二比值大于或等于第二指定比值時，確定所述目標(biāo)音頻為對人聲錄制得到的音頻。

4.如權(quán)利要求3所述的方法，其特征在于，所述從所述目標(biāo)音頻中獲取多個有效音頻幀，包括：

從所述目標(biāo)音頻包括的音頻幀中選擇出一個音頻幀，對選擇出的音頻幀執(zhí)行以下處理，直至處理完所述目標(biāo)音頻包括的每個音頻幀為止：

確定選擇出的音頻幀在人聲頻段區(qū)域的第一能量極大值中最大的第一能量極大值和在非人聲頻段區(qū)域的第二能量極大值中最大的第二能量極大值；

當(dāng)所述最大的第一能量極大值和所述最大的第二能量極大值均大于或等于指定數(shù)值時，確定選擇出的音頻幀為有效音頻幀。

5.如權(quán)利要求2或3所述的方法，其特征在于，所述從所述多個有效音頻幀中確定目標(biāo)幀，包括：

從所述多個有效音頻幀中選擇出一個有效音頻幀，對選擇出的有效音頻幀執(zhí)行以下處理，直至處理完所述多個有效音頻幀中的每個有效音頻幀為止：

根據(jù)選擇出的有效音頻幀在人聲頻段區(qū)域的第一能量極大值和在非人聲頻段區(qū)域的第二能量極大值，確定選擇出的有效音頻幀的人聲顯著值；

其中，所述人聲顯著值用于指示在人聲頻段區(qū)域的第一能量極大值與在非人聲頻段區(qū)域的第二能量極大值之間的差距；

當(dāng)選擇出的有效音頻幀的人聲顯著值大于指定顯著值時，確定選擇出的有效音頻幀為目標(biāo)幀。

6.如權(quán)利要求5所述的方法，其特征在于，所述根據(jù)選擇出的有效音頻幀在人聲頻段區(qū)域的第一能量極大值和在非人聲頻段區(qū)域的第二能量極大值，確定選擇出的有效音頻幀的人聲顯著值，包括：

根據(jù)選擇出的有效音頻幀在人聲頻段區(qū)域的第一能量極大值和在非人聲頻段區(qū)域的第二能量極大值，按照如下公式確定選擇出的有效音頻幀的人聲顯著值；

其中，在上述公式中，所述C為選擇出的有效音頻幀的人聲顯著值，所述m為選擇出的有效音頻幀在人聲頻段區(qū)域的第一能量極大值的總個數(shù)，所述Ea_k為選擇出的有效音頻幀在人聲頻段區(qū)域的第一能量極大值，所述n為選擇出的有效音頻幀在非人聲頻段區(qū)域的第二能量極大值的總個數(shù)，所述Eb_k為選擇出的有效音頻幀在非人聲頻段區(qū)域的第二能量極大值。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州酷狗計算機(jī)科技有限公司，未經(jīng)廣州酷狗計算機(jī)科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201711116680.3/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。