[發(fā)明專利]音頻信號識別方法、裝置、設(shè)備、系統(tǒng)和存儲介質(zhì)有效

申請?zhí)枺?/td>	201811148191.0	申請日：	2018-09-29
公開（公告）號：	CN111063338B	公開（公告）日：	2023-09-19
發(fā)明（設(shè)計）人：	薛少飛	申請（專利權(quán)）人：	阿里巴巴集團控股有限公司
主分類號：	G10L15/02	分類號：	G10L15/02;G10L15/06;G10L15/16;G10L15/18;G10L15/26;G10L17/04;G10L17/26
代理公司：	北京東方億思知識產(chǎn)權(quán)代理有限責(zé)任公司 11258	代理人：	吳崇
地址：	開曼群島***	國省代碼：	暫無信息
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	音頻信號識別方法裝置設(shè)備系統(tǒng) 存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種音頻信號識別方法，包括：

針對接收的音頻信號，確定所述音頻信號中是否包括特定音頻信號；

如果所述音頻信號中包括特定音頻信號，基于語音識別模型組件處理所述音頻信號，得到所述音頻信號中語音識別單元的識別概率，所述語音識別模型組件包括特定聲學(xué)模型和非特定聲學(xué)模型，其中，所述識別概率為將基于所述特定聲學(xué)模型處理所述音頻信號得到的識別概率和基于所述非特定聲學(xué)模型處理所述音頻信號得到的識別概率進行加權(quán)融合后得到的概率；

利用語言模型對所述音頻信號中語音識別單元的識別概率進行聲學(xué)解碼，得到所述音頻信號的文本識別結(jié)果。

2.根據(jù)權(quán)利要求1所述音頻信號識別方法，其中，所述確定所述音頻信號中是否包括特定音頻信號，包括：

利用特定音頻判別模型組件，判斷所述音頻信號的聲學(xué)特征中是否包括特定音頻信號的聲學(xué)特征，根據(jù)判斷結(jié)果確定所述音頻信號中是否包括特定音頻信號。

3.根據(jù)權(quán)利要求2所述音頻信號識別方法，其中，

所述特定音頻判別模型組件是根據(jù)正樣本和負樣本訓(xùn)練得到的模型，所述正樣本為包括特定音頻信號的音頻數(shù)據(jù)，所述負樣本為包括非特定音頻信號的音頻數(shù)據(jù)。

4.根據(jù)權(quán)利要求1所述音頻信號識別方法，其中，所述基于語音識別模型組件處理所述音頻信號，得到所述音頻信號中語音識別單元的識別概率，所述語音識別模型組件包括特定聲學(xué)模型和非特定聲學(xué)模型，包括：

使用所述語音識別模型組件中的非特定聲學(xué)模型，計算所述音頻信號中語音識別單元的第一識別概率；

使用所述語音識別模型組件中的特定聲學(xué)模型，計算所述音頻信號中語音識別單元的第二識別概率；

利用通用聲學(xué)模型權(quán)重系數(shù)和特定聲學(xué)模型權(quán)重系數(shù)，對所述第一識別概率和所述第二識別概率進行加權(quán)融合，得到所述音頻信號中語音識別單元的識別概率。

5.根據(jù)權(quán)利要求1所述音頻信號識別方法，其中，

所述特定聲學(xué)模型的網(wǎng)絡(luò)結(jié)構(gòu)和所述非特定聲學(xué)模型的網(wǎng)絡(luò)結(jié)構(gòu)中包括共享部分。

6.根據(jù)權(quán)利要求5所述的音頻信號識別方法，其中，所述基于語音識別模型組件處理所述音頻信號，得到所述音頻信號中語音識別單元的識別概率，所述語音識別模型組件包括特定聲學(xué)模型和非特定聲學(xué)模型，包括：

利用所述共享部分和所述特定聲學(xué)模型中的獨立部分，處理所述音頻信號，得到所述音頻信號中語音識別單元的識別概率。

7.根據(jù)權(quán)利要求5所述的音頻信號識別方法，其中，所述基于語音識別模型組件處理所述音頻信號，得到所述音頻信號中語音識別單元的識別概率，包括：

如果所述音頻信號中不包括特定音頻信號，利用所述共享部分和所述非特定聲學(xué)模型中的獨立部分處理所述音頻信號，得到所述音頻信號中語音識別單元的識別概率。

8.一種音頻信號識別裝置，包括：

特定音頻確定模塊，用于針對接收的音頻信號，確定所述音頻信號中是否包括特定音頻信號；

音頻信號處理模塊，用于如果所述音頻信號中包括特定音頻信號，基于語音識別模型組件處理所述音頻信號，得到所述音頻信號中語音識別單元的識別概率，所述語音識別模型組件包括特定聲學(xué)模型和非特定聲學(xué)模型；

聲學(xué)解碼模塊，用于如果所述音頻信號中包括特定音頻信號，基于語音識別模型組件處理所述音頻信號，得到所述音頻信號中語音識別單元的識別概率，所述語音識別模型組件包括特定聲學(xué)模型和非特定聲學(xué)模型，其中，所述識別概率為將基于所述特定聲學(xué)模型處理所述音頻信號得到的識別概率和基于所述非特定聲學(xué)模型處理所述音頻信號得到的識別概率進行加權(quán)融合后得到的概率。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團控股有限公司，未經(jīng)阿里巴巴集團控股有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811148191.0/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種地紅霉素有關(guān)物質(zhì)的檢測方法
下一篇：電機控制裝置、方法、系統(tǒng)和車輛

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】