[發(fā)明專利]一種基于混合聲學(xué)模型的語音識別系統(tǒng)及方法有效

申請?zhí)枺?/td>	201711059592.4	申請日：	2017-11-01
公開（公告）號：	CN109754790B	公開（公告）日：	2020-11-06
發(fā)明（設(shè)計）人：	徐及;程高峰;潘接林;顏永紅	申請（專利權(quán)）人：	中國科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司
主分類號：	G10L15/22	分類號：	G10L15/22;G10L15/16
代理公司：	北京方安思達知識產(chǎn)權(quán)代理有限公司 11472	代理人：	陳琳琳;武玥
地址：	100190 ***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于混合聲學(xué) 模型語音識別系統(tǒng) 方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種基于混合聲學(xué)模型的語音識別系統(tǒng)和方法，所述系統(tǒng)包括：信號處理及特征提取模塊、發(fā)音詞典、語言模型和解碼器；所述系統(tǒng)還包括：混合聲學(xué)模型；所述混合聲學(xué)模型包括：前端的卷積神經(jīng)網(wǎng)絡(luò)和后端的時間延遲及長短時記憶混合神經(jīng)網(wǎng)絡(luò)；所述卷積神經(jīng)網(wǎng)絡(luò)作為一個特征提取模塊放置在時間延遲及長短時記憶混合神經(jīng)網(wǎng)絡(luò)之前；所述卷積神經(jīng)網(wǎng)絡(luò)提取出來的魯棒性特征和原有的特征進行拼接，一起作為后端時間延遲及長短時記憶混合神經(jīng)網(wǎng)絡(luò)的輸入特征。本發(fā)明的系統(tǒng)基于卷積神經(jīng)網(wǎng)絡(luò)對特征的平移變換有更魯棒的建模能力，能夠有效降低模型識別錯誤率，提升多個任務(wù)集上的語音識別性能。

技術(shù)領(lǐng)域

本發(fā)明屬于語音識別領(lǐng)域，具體涉及一種基于混合聲學(xué)模型的語音識別系統(tǒng)及方法。

背景技術(shù)

語言交流是人類最自然的交流方式之一，人類對于計算機語音的研究涵蓋了語音編解碼、語音識別、語音合成、說話人識別、激活詞、語音增強等。在這些領(lǐng)域當(dāng)中語音識別是當(dāng)下最熱門的研究。早在計算機發(fā)明之前，自動語音識別就已經(jīng)提上了議程，早期的聲碼器可以認為是語音識別及合成的雛形。經(jīng)過幾十年的研究，語音識別技術(shù)已經(jīng)滲透到我們生活的方方面面，應(yīng)用范圍涵蓋了智能家居、智能音箱、車載交互、國家安全等領(lǐng)域。

目前，主流的大詞匯量語音識別系統(tǒng)多采用統(tǒng)計模式識別技術(shù)。典型的基于統(tǒng)計模式識別方法的語音識別系統(tǒng)由以下幾個基本模塊構(gòu)成：

信號處理及特征提取模塊：該模塊的主要任務(wù)是從輸入信號中提取特征，供聲學(xué)模型處理；同時，它包括了一些信號處理技術(shù)，以盡可能降低環(huán)境噪聲、信道、說話人等因素對特征造成的影響。

聲學(xué)模型；目前主流的是采用神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫鏈(DNN-HMM)混合結(jié)構(gòu)模型，如圖1所示。其中神經(jīng)網(wǎng)絡(luò)是目前研究的熱點。

發(fā)音詞典；發(fā)音詞典包含系統(tǒng)所能處理的詞匯集，及其發(fā)音。發(fā)音詞典實際提供了聲學(xué)模型建模單元與語言模型建模單元間的映射。

語言模型；語言模型對系統(tǒng)所針對的語言進行建模。理論上，包括正則語言，上下文無關(guān)文法在內(nèi)的各種語言模型都可以作為語言模型，但目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計的N元文法及其變體。

解碼器；解碼器是語音識別系統(tǒng)的核心之一，其任務(wù)是對輸入的信號，根據(jù)聲學(xué)模型、語言模型及發(fā)音詞典，尋找能夠以最大概率輸出該信號的詞串。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司，未經(jīng)中國科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201711059592.4/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

滑坡模型實驗?zāi)Ｐ图?/a>

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】