[發(fā)明專利]一種語音識別方法、裝置、電子設備以及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202110610069.6 | 申請日: | 2021-06-01 |
| 公開(公告)號: | CN113327586A | 公開(公告)日: | 2021-08-31 |
| 發(fā)明(設計)人: | 汪雪;黃石磊;程剛 | 申請(專利權(quán))人: | 深圳市北科瑞聲科技股份有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/16;G10L15/26;G10L25/24 |
| 代理公司: | 深圳智匯遠見知識產(chǎn)權(quán)代理有限公司 44481 | 代理人: | 劉潔;牛悅涵 |
| 地址: | 518036 廣東省深圳市福田區(qū)梅林街道*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語音 識別 方法 裝置 電子設備 以及 存儲 介質(zhì) | ||
本申請涉及一種語音識別方法,包括:獲取音頻數(shù)據(jù),對所述音頻數(shù)據(jù)進行頻譜分析,生成所述音頻數(shù)據(jù)的梅爾倒譜圖;利用預先訓練好的音頻識別模型對所述梅爾倒譜圖進行特征提取,得到特征音頻信號,并識別所述特征音頻信號的音素序列;對所述音素序列進行文字提取,將文字提取的結(jié)果作為所述音頻數(shù)據(jù)的識別結(jié)果。此外,本申請還提供一種語音識別裝置、電子設備以及計算機可讀存儲介質(zhì)。本申請可以提高語音識別的準確率。
技術(shù)領(lǐng)域
本申請涉及人工智能領(lǐng)域,尤其涉及一種語音識別方法、裝置、電子設備以及計算機可讀存儲介質(zhì)。
背景技術(shù)
近年來,機器學習發(fā)展迅猛,語音識別任務在深度學習的背景下發(fā)生巨大突破,雖然傳統(tǒng)的語音識別框架,已經(jīng)可以實現(xiàn)穩(wěn)定的工業(yè)化識別,然而隨著深度學習的引入,處于智能大數(shù)據(jù)時代的人們,已經(jīng)不再滿足于有限的模型精度,人們希望語音識別能夠處理更加復雜的數(shù)據(jù)。
目前,通常采用基于注意力機制的語音識別模型實現(xiàn)語音識別,由于基于注意力機制的語音識別模型對待識別語音的數(shù)據(jù)質(zhì)量要求極高,然而在實際業(yè)務場景中,會產(chǎn)生不同的噪音環(huán)境的待識別語音數(shù)據(jù),比如口音方言、嘈雜、遠場等場景的數(shù)據(jù),這樣會影響基于注意力機制的語音識別模型的語音識別能力,從而會影響語音識別的準確率。
發(fā)明內(nèi)容
為了解決上述技術(shù)問題或者至少部分地解決上述技術(shù)問題,本申請?zhí)峁┝艘环N語音識別方法、裝置、電子設備以及計算機可讀存儲介質(zhì),可以提高語音識別的準確率。
第一方面,本申請?zhí)峁┝艘环N語音識別方法,包括:
獲取音頻數(shù)據(jù),對所述音頻數(shù)據(jù)進行頻譜分析,生成所述音頻數(shù)據(jù)的所述音頻數(shù)據(jù)的梅爾倒譜圖;
利用預先訓練好的音頻識別模型對所述梅爾倒譜圖進行特征提取,得到特征音頻信號,并識別所述特征音頻信號的音素序列;
對所述音素序列進行文字提取,將文字提取的結(jié)果作為所述音頻數(shù)據(jù)的識別結(jié)果。
可以看出,本申請首先基于音頻數(shù)據(jù)的頻譜分析,可以提取出所述音頻數(shù)據(jù)的特征數(shù)據(jù),從而降低所述音頻數(shù)據(jù)的復雜度,進而可以提高后續(xù)音頻數(shù)據(jù)的分析準確率;其次,本申請通過預先訓練好的音頻識別模型執(zhí)行音頻數(shù)據(jù)的梅爾倒譜圖的特征提取及音素識別,即采用端到端的音頻數(shù)據(jù)的音素序列識別,可以增強所述音頻識別模型對復雜的音頻數(shù)據(jù)的抗干擾性,進一步提高音頻數(shù)據(jù)的分析準確率。因此,與現(xiàn)有技術(shù)相比,本申請可以增強模型對音頻數(shù)據(jù)的抗干擾性,提高語音識別的準確率。
在第一方面的一種可能實現(xiàn)方式中,所述對所述音頻數(shù)據(jù)進行頻譜分析,生成所述音頻數(shù)據(jù)的梅爾倒譜圖,包括:
對所述音頻數(shù)據(jù)進行預處理,并將預處理后的音頻數(shù)據(jù)進行短時傅里葉變換,得到所述音頻數(shù)據(jù)的聲譜圖;
對所述聲譜圖進行梅爾譜濾波,并將梅爾譜濾波后的聲譜圖進行倒譜分析,得到所述音頻數(shù)據(jù)的初始梅爾倒譜圖;
對所述初始梅爾倒譜圖進行離散變換,得到所述音頻數(shù)據(jù)的梅爾倒譜圖。
在第一方面的一種可能實現(xiàn)方式中,所述利用預先訓練好的音頻識別模型對所述梅爾倒譜圖進行特征提取之前,還包括:
獲取訓練倒譜圖及對應的第一特征音頻信號,從所述第一特征音頻信號中提取音素序列,得到第一音素序列;
對所述訓練倒譜圖進行頻譜增強,將頻譜增強后的訓練倒譜圖和所述訓練倒譜圖作為模型訓練數(shù)據(jù);
將所述模型訓練數(shù)據(jù)輸入所述音頻識別模型的卷積模塊中,以輸出所述模型訓練數(shù)據(jù)的第二特征音頻信號,并利用所述音頻識別模型的音素識別模塊識別所述第二特征音頻信號的第二音素序列;
根據(jù)所述第一特征音頻信號、第二特征音頻信號、第一音素序列以及第二音素序列,計算所述音頻識別模型的訓練損失;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市北科瑞聲科技股份有限公司,未經(jīng)深圳市北科瑞聲科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110610069.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種多組分抗靜電紗及其紡制方法
- 下一篇:一種清潔設備





