[發(fā)明專利]音頻信號識別方法、裝置、設(shè)備、系統(tǒng)和存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201811148191.0 | 申請日: | 2018-09-29 |
| 公開(公告)號: | CN111063338B | 公開(公告)日: | 2023-09-19 |
| 發(fā)明(設(shè)計)人: | 薛少飛 | 申請(專利權(quán))人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/16;G10L15/18;G10L15/26;G10L17/04;G10L17/26 |
| 代理公司: | 北京東方億思知識產(chǎn)權(quán)代理有限責(zé)任公司 11258 | 代理人: | 吳崇 |
| 地址: | 開曼群島*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音頻 信號 識別 方法 裝置 設(shè)備 系統(tǒng) 存儲 介質(zhì) | ||
1.一種音頻信號識別方法,包括:
針對接收的音頻信號,確定所述音頻信號中是否包括特定音頻信號;
如果所述音頻信號中包括特定音頻信號,基于語音識別模型組件處理所述音頻信號,得到所述音頻信號中語音識別單元的識別概率,所述語音識別模型組件包括特定聲學(xué)模型和非特定聲學(xué)模型,其中,所述識別概率為將基于所述特定聲學(xué)模型處理所述音頻信號得到的識別概率和基于所述非特定聲學(xué)模型處理所述音頻信號得到的識別概率進行加權(quán)融合后得到的概率;
利用語言模型對所述音頻信號中語音識別單元的識別概率進行聲學(xué)解碼,得到所述音頻信號的文本識別結(jié)果。
2.根據(jù)權(quán)利要求1所述音頻信號識別方法,其中,所述確定所述音頻信號中是否包括特定音頻信號,包括:
利用特定音頻判別模型組件,判斷所述音頻信號的聲學(xué)特征中是否包括特定音頻信號的聲學(xué)特征,根據(jù)判斷結(jié)果確定所述音頻信號中是否包括特定音頻信號。
3.根據(jù)權(quán)利要求2所述音頻信號識別方法,其中,
所述特定音頻判別模型組件是根據(jù)正樣本和負樣本訓(xùn)練得到的模型,所述正樣本為包括特定音頻信號的音頻數(shù)據(jù),所述負樣本為包括非特定音頻信號的音頻數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述音頻信號識別方法,其中,所述基于語音識別模型組件處理所述音頻信號,得到所述音頻信號中語音識別單元的識別概率,所述語音識別模型組件包括特定聲學(xué)模型和非特定聲學(xué)模型,包括:
使用所述語音識別模型組件中的非特定聲學(xué)模型,計算所述音頻信號中語音識別單元的第一識別概率;
使用所述語音識別模型組件中的特定聲學(xué)模型,計算所述音頻信號中語音識別單元的第二識別概率;
利用通用聲學(xué)模型權(quán)重系數(shù)和特定聲學(xué)模型權(quán)重系數(shù),對所述第一識別概率和所述第二識別概率進行加權(quán)融合,得到所述音頻信號中語音識別單元的識別概率。
5.根據(jù)權(quán)利要求1所述音頻信號識別方法,其中,
所述特定聲學(xué)模型的網(wǎng)絡(luò)結(jié)構(gòu)和所述非特定聲學(xué)模型的網(wǎng)絡(luò)結(jié)構(gòu)中包括共享部分。
6.根據(jù)權(quán)利要求5所述的音頻信號識別方法,其中,所述基于語音識別模型組件處理所述音頻信號,得到所述音頻信號中語音識別單元的識別概率,所述語音識別模型組件包括特定聲學(xué)模型和非特定聲學(xué)模型,包括:
利用所述共享部分和所述特定聲學(xué)模型中的獨立部分,處理所述音頻信號,得到所述音頻信號中語音識別單元的識別概率。
7.根據(jù)權(quán)利要求5所述的音頻信號識別方法,其中,所述基于語音識別模型組件處理所述音頻信號,得到所述音頻信號中語音識別單元的識別概率,包括:
如果所述音頻信號中不包括特定音頻信號,利用所述共享部分和所述非特定聲學(xué)模型中的獨立部分處理所述音頻信號,得到所述音頻信號中語音識別單元的識別概率。
8.一種音頻信號識別裝置,包括:
特定音頻確定模塊,用于針對接收的音頻信號,確定所述音頻信號中是否包括特定音頻信號;
音頻信號處理模塊,用于如果所述音頻信號中包括特定音頻信號,基于語音識別模型組件處理所述音頻信號,得到所述音頻信號中語音識別單元的識別概率,所述語音識別模型組件包括特定聲學(xué)模型和非特定聲學(xué)模型;
聲學(xué)解碼模塊,用于如果所述音頻信號中包括特定音頻信號,基于語音識別模型組件處理所述音頻信號,得到所述音頻信號中語音識別單元的識別概率,所述語音識別模型組件包括特定聲學(xué)模型和非特定聲學(xué)模型,其中,所述識別概率為將基于所述特定聲學(xué)模型處理所述音頻信號得到的識別概率和基于所述非特定聲學(xué)模型處理所述音頻信號得到的識別概率進行加權(quán)融合后得到的概率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團控股有限公司,未經(jīng)阿里巴巴集團控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811148191.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置
- 亮度信號/色信號分離裝置和亮度信號/色信號分離方法
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置
- 雙耳信號的信號生成
- 雙耳信號的信號生成
- 信號處理裝置、信號處理方法、信號處理程序
- USBTYPEC信號轉(zhuǎn)HDMI信號的信號轉(zhuǎn)換線
- 信號盒(信號轉(zhuǎn)換)
- 信號調(diào)制方法、信號調(diào)制裝置、信號解調(diào)方法和信號解調(diào)裝置





