[發(fā)明專利]用于語音識別的n元文法模型構(gòu)造方法及語音識別系統(tǒng)在審
| 申請?zhí)枺?/td> | 201410342840.6 | 申請日: | 2014-07-17 |
| 公開(公告)號: | CN105261358A | 公開(公告)日: | 2016-01-20 |
| 發(fā)明(設(shè)計)人: | 張晴晴;陳夢喆;潘接林;顏永紅 | 申請(專利權(quán))人: | 中國科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L15/06 |
| 代理公司: | 北京方安思達(dá)知識產(chǎn)權(quán)代理有限公司 11472 | 代理人: | 王宇楊;呂愛霞 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 語音 識別 文法 模型 構(gòu)造 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種在語音識別中,利用詞矢量分類來擴(kuò)展人工標(biāo)注訓(xùn)練語料,以提升語言模型的方法,具體提供一種用于語音識別的n元文法模型構(gòu)造方法及語音識別系統(tǒng)。
背景技術(shù)
目前采用的語言模型建模技術(shù)主要是n元文法語言模型(n-gramLanguageModel)。該模型因其訓(xùn)練簡單,復(fù)雜度低,使用方便等優(yōu)勢,在語音識別領(lǐng)域得到廣泛的應(yīng)用。但是,n元文法模型核心思想是通過詞頻統(tǒng)計來建模,在資源匱乏的領(lǐng)域,比如面向電話交談的語音(CTS)識別系統(tǒng),由于語料規(guī)模是有限的,存在大量訓(xùn)練語料中沒有出現(xiàn)的文法組合,只能依靠平滑算法給那些概率為零的文法附上一個很小的概率。即使如此,數(shù)據(jù)稀疏問題依然是效果不理想的主要原因。
n元文法語言模型運(yùn)用于語音識別領(lǐng)域,實踐表明用戶語音的人工標(biāo)注的加入對于模型性能的提升是效果顯著。但是人工標(biāo)注的獲得費(fèi)時費(fèi)力,因此數(shù)據(jù)量十分有限,如何更充分地利用人工標(biāo)注語料成為人們的研究目標(biāo)。常用做法是依據(jù)標(biāo)注的文法規(guī)則特點(diǎn),擴(kuò)展出更多風(fēng)格相近的語料,加入到模型中。之前的研究在這一問題上提出了一些方法,比如依據(jù)已有的句子總結(jié)出一些句型,對于空缺的詞利用同義詞詞林進(jìn)行同義詞擴(kuò)展;也有利用互信息來對詞典進(jìn)行分類,產(chǎn)生的詞類用于擴(kuò)展語料。
近年來,神經(jīng)網(wǎng)絡(luò)建模技術(shù)在語言模型中得到應(yīng)用。n元文法語言模型是在離散空間上建模,詞與詞相互之間僅有語法結(jié)構(gòu)上的聯(lián)系,并無語義上的聯(lián)系。而神經(jīng)網(wǎng)絡(luò)模型在連續(xù)空間建模,能有效挖掘更深層的語言信息。詞矢量是神經(jīng)網(wǎng)絡(luò)建模過程中可得到的產(chǎn)物,每個詞由一個遠(yuǎn)小于詞典詞個數(shù)的維度的矢量表示,矢量維度大大小于詞典詞個數(shù),詞的特征、以及詞與詞之間的關(guān)系信息就蘊(yùn)藏在矢量中。詞矢量的這一特性在自然語言理解領(lǐng)域中得到應(yīng)用。本發(fā)明是將詞矢量應(yīng)用到語音識別的語言模型提升中,利用詞矢量來獲得詞典中詞相互間的相似度,按相似度將詞典中的詞分為若干詞類,對標(biāo)注語料的詞進(jìn)行同類詞擴(kuò)展以達(dá)到豐富語料的目的。
發(fā)明內(nèi)容
本發(fā)明的目的在于,為有效緩解語音識別領(lǐng)域中常用的n元文法語言模型數(shù)據(jù)稀疏的問題,本發(fā)明提供了一種用于語音識別的n元文法模型構(gòu)造方法及語音識別系統(tǒng)。
為了實現(xiàn)上述目的,本發(fā)明提供一種用于語音識別的n元文法模型構(gòu)造方法,所述方法包含:
步驟101)通過神經(jīng)網(wǎng)絡(luò)語言模型訓(xùn)練得到詞矢量,再對詞矢量進(jìn)行分類以及多層篩選,最終得到詞類;
步驟102)利用直接統(tǒng)計詞頻的方法擴(kuò)充人工標(biāo)注,即同類詞替換時,直接統(tǒng)計與原句有變化的1至n元文法組合,進(jìn)而得到擴(kuò)充部分的n元文法模型;
步驟103)人工標(biāo)注生成初步的n元文法模型,再與擴(kuò)充部分的n元文法模型進(jìn)行模型插值,得到最終的n元文法模型。
可選的,上述步驟101)進(jìn)一步包含:
步驟101-1)輸入標(biāo)注及訓(xùn)練文本;
步驟101-2)通過神經(jīng)網(wǎng)絡(luò)語言模型訓(xùn)練得到詞典中的詞的相應(yīng)詞矢量;
步驟101-3)用K均值法對詞矢量分類,其中詞矢量間的相似程度用余弦相似度進(jìn)行統(tǒng)計;
步驟101-4)對分類結(jié)果進(jìn)行多層篩選,最終得到詞類。
可選的,上述步驟102)進(jìn)一步包含:
步驟102-1)將標(biāo)注文本中的詞對應(yīng)至步驟101)得到的詞類,由相應(yīng)分類中的詞替換;
步驟102-2)替換過程中,對與替換部分有關(guān)聯(lián)的1至n元文法組合進(jìn)行詞頻信息的統(tǒng)計;
步驟102-3)根據(jù)詞頻信息生成標(biāo)注擴(kuò)充部分的n元文法語言模型B。
可選的,上述步驟103)進(jìn)一步包含:
步驟103-1)生成人工標(biāo)注部分的n元文法語言模型A;
步驟103-2)計算模型A和模型B在開發(fā)集上的最佳插值系數(shù),根據(jù)該系數(shù)插值模型A和模型B,得到最終模型。
此外,本發(fā)明還提供了一種基于該n元文法模型的語音識別系統(tǒng)。
與現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)優(yōu)勢在于:
本發(fā)明利用神經(jīng)網(wǎng)絡(luò)深入挖掘詞間信息,緩解語料的稀疏性,優(yōu)化了語言模型部分,使其在語音識別系統(tǒng)中更有效地控制解碼器搜索路徑、提高解碼速度和識別正確率。
附圖說明
圖1是詞矢量擴(kuò)展人工標(biāo)注流程圖;
圖2是神經(jīng)網(wǎng)絡(luò)語言模型結(jié)構(gòu)圖;
圖3語音識別系統(tǒng)基本構(gòu)架。
具體實施方式
下面結(jié)合附圖和具體實施例對本發(fā)明的方案進(jìn)行詳細(xì)的說明。
本發(fā)明提供的依據(jù)詞矢量擴(kuò)展人工標(biāo)注流程的n元文法模型構(gòu)造方法的流程如圖1所示,具體包含:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司,未經(jīng)中國科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410342840.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





