[發(fā)明專利]音頻識別方法、裝置及數(shù)據(jù)處理設(shè)備有效

申請?zhí)枺?/td>	201911072080.0	申請日：	2019-11-05
公開（公告）號：	CN110782920B	公開（公告）日：	2021-09-21
發(fā)明（設(shè)計）人：	張文偉;王啟騰	申請（專利權(quán)）人：	廣州虎牙科技有限公司
主分類號：	G10L25/51	分類號：	G10L25/51;G10L25/30;G10L25/24;G10L25/45
代理公司：	北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 11463	代理人：	張欣欣
地址：	511400 廣東省廣州市番禺***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	音頻識別方法裝置數(shù)據(jù)處理設(shè)備
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本申請一種音頻識別方法、裝置及數(shù)據(jù)處理設(shè)備，方法包括：獲取待識別音頻，將待識別音頻拆分為多個音頻片段；針對每個音頻片段，獲取音頻片段的特征；將音頻片段的特征輸入訓(xùn)練好的分類模型進行分類識別，獲得該音頻片段是否為疑似特定音頻片段的分類結(jié)果；將多個音頻片段的分類結(jié)果輸入長短期記憶網(wǎng)絡(luò)LSTM網(wǎng)絡(luò)進行處理，獲得待識別音頻是否為特定音頻的識別結(jié)果。相較于現(xiàn)有技術(shù)中對整個音頻進行整體識別的方式，本實施例提供的方案可以更為準確的識別待識別音頻中占比很小的特定音頻內(nèi)容。

技術(shù)領(lǐng)域

本申請涉及數(shù)據(jù)處理技術(shù)領(lǐng)域，具體而言，涉及一種音頻識別方法、裝置及數(shù)據(jù)處理設(shè)備。

背景技術(shù)

音頻識別是一種根據(jù)識別音頻中特定信息的技術(shù)，對于基于音頻內(nèi)容的報警、違規(guī)音頻判別等具有重要意義。

在一些音頻識別方法中，通常是對音頻進行整體分析，檢測音頻中存在的特定內(nèi)容。但是當音頻中特定內(nèi)容在整個音頻中所占時間很短時，采用音頻整體分析會造成特定音頻內(nèi)容的特征不夠顯著，導(dǎo)致特定音頻內(nèi)容的識別率低，不能準確判斷特定能的存在性。

發(fā)明內(nèi)容

為了克服現(xiàn)有技術(shù)中的上述不足，本申請的目的在于提供一種音頻識別方法，所述方法包括：

獲取待識別音頻，將所述待識別音頻拆分為多個音頻片段；

針對每個所述音頻片段，獲取所述音頻片段的特征；

將所述音頻片段的特征輸入訓(xùn)練好的分類模型進行分類識別，獲得該音頻片段是否為疑似特定音頻片段的分類結(jié)果；

將多個所述音頻片段的分類結(jié)果輸入長短期記憶網(wǎng)絡(luò)LSTM網(wǎng)絡(luò)進行處理，獲得所述待識別音頻是否為特定音頻的識別結(jié)果。

在一種可能的實施方式中，所述針對每個所述音頻片段，獲取所述音頻片段的特征，包括：

針對每個所述音頻片段，獲取該音頻片段的梅爾頻率倒譜系數(shù)頻譜；

根據(jù)所述音頻片段的梅爾頻率倒譜系數(shù)頻譜獲取所述音頻片段的特征。

在一種可能的實施方式中，所述針對每個所述音頻片段，獲取該音頻片段的梅爾頻率倒譜系數(shù)頻譜，包括：

將每個所述音頻片段，將該音頻片段拆分為多個幀；

根據(jù)每個幀中振幅和時間的關(guān)系，通過短時傅里葉變換計算獲得該待識別音頻的聲譜圖；

通過預(yù)設(shè)階數(shù)的梅爾標度濾波器組對所述多個幀的聲譜圖進行處理，獲得該音頻片段的梅爾頻譜；

對所述梅爾頻譜進行倒譜分析處理，獲得所述音頻片段的梅爾倒譜系數(shù)頻譜。

在一種可能的實施方式中，針對每個所述音頻片段，按照預(yù)設(shè)窗長、預(yù)設(shè)步長對該音頻片段進行拆分，包括：

按照預(yù)設(shè)窗長、預(yù)設(shè)步長，使用漢寧窗口對該音頻片段進行拆分，其中，所述預(yù)設(shè)窗長不小于所述預(yù)設(shè)步長。

在一種可能的實施方式中，所述根據(jù)所述音頻片段的梅爾頻率倒譜系數(shù)頻譜獲取所述音頻片段的特征，包括：

將所述音頻片段的梅爾頻率倒譜系數(shù)頻譜拆分為多個大小相同的特征矩陣；

將所述多個特征矩陣輸入視覺幾何群VGG模型進行特征提取，獲得所述音頻片段的特征。

在一種可能的實施方式中，所述針對每個所述音頻片段，獲取所述音頻片段的特征的步驟之前，所述方法還包括：

對每個所述音頻片段進行降采樣并轉(zhuǎn)化為單聲道音頻。

在一種可能的實施方式中，所述將所述待識別音頻拆分為多個音頻片段，包括：

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州虎牙科技有限公司，未經(jīng)廣州虎牙科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201911072080.0/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】