[發(fā)明專利]一種基于混合聲學(xué)模型的語音識別系統(tǒng)及方法有效
| 申請?zhí)枺?/td> | 201711059592.4 | 申請日: | 2017-11-01 |
| 公開(公告)號: | CN109754790B | 公開(公告)日: | 2020-11-06 |
| 發(fā)明(設(shè)計)人: | 徐及;程高峰;潘接林;顏永紅 | 申請(專利權(quán))人: | 中國科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/16 |
| 代理公司: | 北京方安思達知識產(chǎn)權(quán)代理有限公司 11472 | 代理人: | 陳琳琳;武玥 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 混合 聲學(xué) 模型 語音 識別 系統(tǒng) 方法 | ||
本發(fā)明公開了一種基于混合聲學(xué)模型的語音識別系統(tǒng)和方法,所述系統(tǒng)包括:信號處理及特征提取模塊、發(fā)音詞典、語言模型和解碼器;所述系統(tǒng)還包括:混合聲學(xué)模型;所述混合聲學(xué)模型包括:前端的卷積神經(jīng)網(wǎng)絡(luò)和后端的時間延遲及長短時記憶混合神經(jīng)網(wǎng)絡(luò);所述卷積神經(jīng)網(wǎng)絡(luò)作為一個特征提取模塊放置在時間延遲及長短時記憶混合神經(jīng)網(wǎng)絡(luò)之前;所述卷積神經(jīng)網(wǎng)絡(luò)提取出來的魯棒性特征和原有的特征進行拼接,一起作為后端時間延遲及長短時記憶混合神經(jīng)網(wǎng)絡(luò)的輸入特征。本發(fā)明的系統(tǒng)基于卷積神經(jīng)網(wǎng)絡(luò)對特征的平移變換有更魯棒的建模能力,能夠有效降低模型識別錯誤率,提升多個任務(wù)集上的語音識別性能。
技術(shù)領(lǐng)域
本發(fā)明屬于語音識別領(lǐng)域,具體涉及一種基于混合聲學(xué)模型的語音識別系統(tǒng)及方法。
背景技術(shù)
語言交流是人類最自然的交流方式之一,人類對于計算機語音的研究涵蓋了語音編解碼、語音識別、語音合成、說話人識別、激活詞、語音增強等。在這些領(lǐng)域當(dāng)中語音識別是當(dāng)下最熱門的研究。早在計算機發(fā)明之前,自動語音識別就已經(jīng)提上了議程,早期的聲碼器可以認為是語音識別及合成的雛形。經(jīng)過幾十年的研究,語音識別技術(shù)已經(jīng)滲透到我們生活的方方面面,應(yīng)用范圍涵蓋了智能家居、智能音箱、車載交互、國家安全等領(lǐng)域。
目前,主流的大詞匯量語音識別系統(tǒng)多采用統(tǒng)計模式識別技術(shù)。典型的基于統(tǒng)計模式識別方法的語音識別系統(tǒng)由以下幾個基本模塊構(gòu)成:
信號處理及特征提取模塊:該模塊的主要任務(wù)是從輸入信號中提取特征,供聲學(xué)模型處理;同時,它包括了一些信號處理技術(shù),以盡可能降低環(huán)境噪聲、信道、說話人等因素對特征造成的影響。
聲學(xué)模型;目前主流的是采用神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫鏈(DNN-HMM)混合結(jié)構(gòu)模型,如圖1所示。其中神經(jīng)網(wǎng)絡(luò)是目前研究的熱點。
發(fā)音詞典;發(fā)音詞典包含系統(tǒng)所能處理的詞匯集,及其發(fā)音。發(fā)音詞典實際提供了聲學(xué)模型建模單元與語言模型建模單元間的映射。
語言模型;語言模型對系統(tǒng)所針對的語言進行建模。理論上,包括正則語言,上下文無關(guān)文法在內(nèi)的各種語言模型都可以作為語言模型,但目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計的N元文法及其變體。
解碼器;解碼器是語音識別系統(tǒng)的核心之一,其任務(wù)是對輸入的信號,根據(jù)聲學(xué)模型、語言模型及發(fā)音詞典,尋找能夠以最大概率輸出該信號的詞串。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司,未經(jīng)中國科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711059592.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:語音音素的識別方法及裝置
- 下一篇:聲控方法及系統(tǒng)
- 用于語音識別的聲學(xué)模型訓(xùn)練方法及裝置
- 具有集成聲學(xué)發(fā)生器的聲學(xué)發(fā)射傳感器
- 聲學(xué)發(fā)射傳感器裝置
- 一種基于空間折疊聲學(xué)超材料的單傳感器聲學(xué)相機
- 聲學(xué)環(huán)境中的聲學(xué)信號的基于上下文的消除和放大
- 聲學(xué)結(jié)構(gòu)和聲學(xué)系統(tǒng)
- 具有外放和私密操作模式的可穿戴個人聲學(xué)設(shè)備
- 聲換能器系統(tǒng)
- 一種聲學(xué)模型的訓(xùn)練方法、裝置以及計算機可讀存儲介質(zhì)
- 一種基于聲學(xué)暗室的聲學(xué)相位中心校準(zhǔn)方法及系統(tǒng)





