[發(fā)明專利]一種應(yīng)用于便攜式設(shè)備的自動語音識別系統(tǒng)及其工作方法在審

申請?zhí)枺?/td>	202010510245.4	申請日：	2020-06-08
公開（公告）號：	CN111681659A	公開（公告）日：	2020-09-18
發(fā)明（設(shè)計）人：	徐鵬;田勇;張惟師;羅海斌;王鵬	申請（專利權(quán)）人：	北京高因科技有限公司
主分類號：	G10L15/22	分類號：	G10L15/22;G10L15/02;G10L15/06;G10L15/20;G10L15/26
代理公司：	北京世譽鑫誠專利代理事務(wù)所(普通合伙) 11368	代理人：	孫國棟
地址：	100089 北京市海***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種應(yīng)用于便攜式設(shè)備自動語音識別系統(tǒng) 及其工作方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明提供了一種應(yīng)用于便攜式設(shè)備的自動語音識別系統(tǒng)及其工作方法。該系統(tǒng)包括語音獲取模塊、前端降噪模塊、預(yù)處理模塊、語音識別模塊、語言模型模塊。本發(fā)明應(yīng)用于中小語料集上，加入了自然語言處理技術(shù)，在模型訓(xùn)練時加入語言模型并且在得出文字結(jié)果后使用糾錯技術(shù)對結(jié)果進行后處理，使得識別結(jié)果可讀性大大提高。

技術(shù)領(lǐng)域

本發(fā)明屬于語音識別技術(shù)領(lǐng)域，尤其涉及一種應(yīng)用于便攜式設(shè)備的自動語音識別系統(tǒng)及其工作方法。

背景技術(shù)

語音作為最方便自然的交流方式，一直是人機交互的重要研究領(lǐng)域之一，而自動語音識別系統(tǒng)是此領(lǐng)域重要的一部分。此類系統(tǒng)主要將外界聲音經(jīng)過設(shè)備采集之后轉(zhuǎn)化為音頻，之后對音頻進行一系列算法的處理，使其轉(zhuǎn)化為人類能夠看懂得文字信息使得人們可以閱讀或者再經(jīng)過計算及處理從而更快的獲得有用的信息。

目前大公司的語音識別系統(tǒng)都是基于大量語料以及使用麥克風(fēng)陣列方式來獲得高質(zhì)量的語音翻譯結(jié)果。但存在以下問題：

1)語料標(biāo)注需要耗費大量的人力物力財力，一般的公司或機構(gòu)很難承擔(dān)如此高昂的費用；

2)麥克風(fēng)陣列對硬件要求較高而且費用也比較高昂，對于目前在人們生活中通常使用手機的情況下不能普遍適用；

3)語音翻譯的文字結(jié)果往往可讀性較差，不利于人類閱讀以及后期機器的其他處理動作。

發(fā)明內(nèi)容

為解決上述問題，本發(fā)明公開了一種應(yīng)用于便攜式設(shè)備的自動語音識別系統(tǒng)，包括語音獲取模塊、前端降噪模塊、預(yù)處理模塊、語音識別模塊、語言模型模塊；

語音獲取模塊：被配置為獲取便攜式設(shè)備的原始音頻信號；

前端降噪模塊：被配置為對輸入的音頻數(shù)據(jù)實時進行降噪處理，輸出降噪后的音頻；

預(yù)處理模塊：被配置為利用語音增強技術(shù)對降噪后的音頻進行語料集的擴展，并將語譜圖作為輸入進行音頻特征提取，然后輸出處理后的音頻；

語音識別模塊：被配置為使用深度學(xué)習(xí)技術(shù)識別處理后的音頻，將其轉(zhuǎn)化為文字概率矩陣；

進一步的，還包括文字后處理模塊，被配置為對語言模型模塊輸出的文字序列進行糾錯。

進一步的，進行糾錯的具體方法為：使用句法依存關(guān)系找出文字序列中是否存在語法錯誤，當(dāng)存在時則通過查詢字典庫找到相應(yīng)的字或詞進行替換，再使用語言模型模塊判斷句子完整性。

進一步的，語音增強技術(shù)包含數(shù)據(jù)擾動技術(shù)、SpecAugment技術(shù)。

進一步的，預(yù)處理模塊對語料集進行擴展是將降噪后的音頻的長度隨機擴展為原來的1.1倍或者縮短為原來的0.9倍。

進一步的，前端降噪模塊降噪的具體降噪過程為：

步驟一：便攜式設(shè)備的原始音頻信號輸入到濾波器；

步驟二：對原始音頻信號進行采樣，截止頻率36hz，960fft加半窗；

步驟三：采用平滑計算各個頻帶組能量；

步驟四：降采樣，計算基音周期；

步驟五：計算基音周期的能量以及與原始音頻信號的相關(guān)性，再經(jīng)過正交變換求特征點；

步驟六：計算出第一次增益；

步驟七：根據(jù)計算出來的出處增益，對輸入信號進行基音諧波濾波；

步驟八：根據(jù)重新量化后的原始音頻信號計算出第二次增益。

步驟九：根據(jù)第一次增益以及第二次增益，求解出最后的輸出。進一步的，預(yù)處理模塊使用melfbank提取音頻特征。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京高因科技有限公司，未經(jīng)北京高因科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010510245.4/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】