[發(fā)明專利]一種語音識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請?zhí)枺?/td> | 202010418728.1 | 申請日: | 2020-05-18 |
| 公開(公告)號(hào): | CN111583909A | 公開(公告)日: | 2020-08-25 |
| 發(fā)明(設(shè)計(jì))人: | 熊世富;劉聰;魏思;劉慶峰;高建清;潘嘉 | 申請(專利權(quán))人: | 科大訊飛股份有限公司 |
| 主分類號(hào): | G10L15/02 | 分類號(hào): | G10L15/02;G10L15/06;G10L15/22;G10L15/26;G10L25/03 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 楊華 |
| 地址: | 230088 安徽*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語音 識(shí)別 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
本申請?zhí)峁┝艘环N語音識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),本申請配置有熱詞庫,在對待識(shí)別語音進(jìn)行識(shí)別過程,基于待識(shí)別語音及熱詞庫,確定當(dāng)前解碼時(shí)刻所需的音頻相關(guān)特征,由于音頻相關(guān)特征確定過程利用了熱詞信息,如果當(dāng)前解碼時(shí)刻的語音片段中包含某個(gè)熱詞,則確定的音頻相關(guān)特征中能夠包含該熱詞對應(yīng)的完整音頻信息,進(jìn)一步基于該音頻相關(guān)特征從熱詞庫中確定當(dāng)前解碼時(shí)刻所需的熱詞相關(guān)特征,熱詞相關(guān)特征能夠準(zhǔn)確表示當(dāng)前解碼時(shí)刻的語音片段是否包含熱詞以及具體包含哪個(gè)熱詞,最終基于音頻相關(guān)特征和熱詞相關(guān)特征,確定待識(shí)別語音在當(dāng)前解碼時(shí)刻的識(shí)別結(jié)果,該識(shí)別結(jié)果對熱詞的識(shí)別更加準(zhǔn)確。
技術(shù)領(lǐng)域
本申請涉及語音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種語音識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
語音識(shí)別即對輸入的語音數(shù)據(jù)進(jìn)行識(shí)別,已得到語音對應(yīng)的識(shí)別文本內(nèi)容。隨著深度學(xué)習(xí)序列建模的發(fā)展,端到端建模方法成為語音識(shí)別領(lǐng)域的研究熱點(diǎn)。
如圖1示例的現(xiàn)有基于注意力機(jī)制的端到端語音識(shí)別框架,能夠?qū)斎胝Z音進(jìn)行編碼,并基于注意力機(jī)制對編碼音頻進(jìn)行處理,經(jīng)過解碼、分類得到輸入語音對應(yīng)的識(shí)別文本。這種語音識(shí)別方法對訓(xùn)練數(shù)據(jù)的需求量很大,導(dǎo)致訓(xùn)練后的模型出現(xiàn)過度自信(over-confidence)的問題,表現(xiàn)在模型上就是計(jì)算出的后驗(yàn)概率得分很尖銳,也即對于高頻詞的識(shí)別效果很好,得分很高;但是對于低頻詞的識(shí)別效果很差,得分很低。對于一些熱詞如,專業(yè)名詞、專業(yè)術(shù)語、日常社會(huì)活動(dòng)中產(chǎn)生的實(shí)時(shí)熱點(diǎn)詞匯,相對于模型來說就屬于低頻詞,對于此類熱詞模型的識(shí)別效果很差。
發(fā)明內(nèi)容
有鑒于此,本申請?zhí)峁┝艘环N語音識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),用以解決現(xiàn)有語音識(shí)別方案對熱詞識(shí)別效果差的問題,其技術(shù)方案如下:
一種語音識(shí)別方法,包括:
獲取待識(shí)別語音以及配置的熱詞庫;
基于所述待識(shí)別語音及所述熱詞庫,確定當(dāng)前解碼時(shí)刻所需的音頻相關(guān)特征;
基于所述音頻相關(guān)特征,從所述熱詞庫中確定當(dāng)前解碼時(shí)刻所需的熱詞相關(guān)特征;
基于所述音頻相關(guān)特征和所述熱詞相關(guān)特征,確定所述待識(shí)別語音在當(dāng)前解碼時(shí)刻的識(shí)別結(jié)果。
優(yōu)選地,所述基于所述待識(shí)別語音及所述熱詞庫,確定當(dāng)前解碼時(shí)刻所需的音頻相關(guān)特征,包括:
獲取當(dāng)前解碼時(shí)刻之前的已解碼結(jié)果信息;
基于所述已解碼結(jié)果信息及所熱詞庫,從所述待識(shí)別語音中確定當(dāng)前解碼時(shí)刻所需的音頻相關(guān)特征。
優(yōu)選地,所述基于所述待識(shí)別語音及所述熱詞庫,確定當(dāng)前解碼時(shí)刻所需的音頻相關(guān)特征;基于所述音頻相關(guān)特征,從所述熱詞庫中確定當(dāng)前解碼時(shí)刻所需的熱詞相關(guān)特征;基于所述音頻相關(guān)特征和所述熱詞相關(guān)特征,確定所述待識(shí)別語音在當(dāng)前解碼時(shí)刻的識(shí)別結(jié)果的過程,包括:
利用預(yù)先訓(xùn)練的語音識(shí)別模型處理所述待識(shí)別語音及所述熱詞庫,得到語音識(shí)別模型輸出的待識(shí)別語音的識(shí)別結(jié)果,其中:
所述語音識(shí)別模型具備接收并處理待識(shí)別語音及熱詞庫,以輸出待識(shí)別語音的識(shí)別結(jié)果的能力。
優(yōu)選地,所述語音識(shí)別模型包括音頻編碼器模塊、熱詞編碼器模塊、聯(lián)合注意力模塊、解碼器模塊及分類器模塊;
所述音頻編碼器模塊對所述待識(shí)別語音進(jìn)行編碼,得到音頻編碼結(jié)果;所述熱詞編碼器模塊對所述熱詞庫中各熱詞進(jìn)行編碼,得到熱詞編碼結(jié)果;
所述聯(lián)合注意力模塊接收并處理所述音頻編碼結(jié)果和所述熱詞編碼結(jié)果,得到當(dāng)前解碼時(shí)刻所需的拼接特征,所述拼接特征包括音頻相關(guān)特征和熱詞相關(guān)特征;
所述解碼器模塊接收并處理所述當(dāng)前解碼時(shí)刻所需的拼接特征,得到解碼器模塊當(dāng)前解碼時(shí)刻的輸出特征;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于科大訊飛股份有限公司,未經(jīng)科大訊飛股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010418728.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





