[發明專利]基于異類模型區分性融合的漢語語音識別系統無效
| 申請號: | 200810041466.0 | 申請日: | 2008-08-07 |
| 公開(公告)號: | CN101334998A | 公開(公告)日: | 2008-12-31 |
| 發明(設計)人: | 朱杰;黃浩 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G10L15/08 | 分類號: | G10L15/08 |
| 代理公司: | 上海交達專利事務所 | 代理人: | 王錫麟;王桂忠 |
| 地址: | 200240*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 異類 模型 區分 融合 漢語 語音 識別 系統 | ||
技術領域
本發明涉及的是一種用于語音識別技術領域的系統,具體是一種基于異類模型區分性融合的漢語語音識別系統。
背景技術
目前大詞匯量連續語音識別系統日益向多模態多信息融合的方向發展,利用多種異類模型來減少語音識別系統的混淆度是當前語音識別系統提高識別性能的一個重要手段。采用多種異類模型的一個特例是漢語語音識別系統,漢語語音識別與英語語音識別的一個比較大的區別是漢語語言是一種帶調語言。在國家標準中規定中列出了常用漢字6763個。音節是漢語語音的自然單位,漢語中一個方塊字代表一個音節。漢語普通話中共有1282個的帶調音節,而不帶調音節(即具有相同的聲-韻母組合,下文中稱為基本音節)共有412個。這說明漢語中的每個音節都對應一定的音調,漢語普通話中一共有五種聲調:陰平、陽平、上聲、去聲以及輕聲。對于同一個聲母和韻母構成的音節,其音調不同,則通常對應的漢字也不同,因此聲調在漢語普通話中承擔著重要的構字辨義的作用。也就是說,聲調模型提供了一種區分同音異字/詞的有效手段。尤其是在自然口語中,經常會出現不符合文法、不連續或者語法混淆的詞句,這時候,聲調模型就能夠有效減少自然口語識別的困惑度。
在漢語大詞匯連續語音識別系統中,利用聲調信息來提高連續語音識別系統性能,其中的一種途徑是先利用譜特征對連續語音進行隱馬爾可夫建模,稱為譜特征模型;利用聲調特征建立聲調模型。在識別過程中,先利用譜特征模型進行語音識別得到格(lattice)輸出,在lattice中的每條弧可以通過Viterbi(維特比)對齊獲得濁音段的起始及結束時間,對每個濁音段計算聲調得分。在格結構基礎上對各種模型(譜特征模型、聲調模型)進行融合,在二次解碼過程來降低誤識率。
經對現有技術文獻的檢索發現,Lei?Xin等人在《International?Conference?onSpeech?and?Language?Proceesing》(語音語言處理國際會議論文集)pp.1277-1280,Sep.2006發表“Improved?Tone?Modeling?for?Mandarin?Broadcast?News?SpeechRecognition”(漢語廣播新聞語音識別中改進的聲調建模)以及Wang?Huanliang等人在《The?5th?International?Symposium?on?Chinese?Spoken?LanguageProcessing》(第五屆漢語口語語言處理國際會議)“Improved?Mandarin?SpeechRecognition?by?Lattice?Rescoring?with?Enhanced?Tone?models”.pp.445-443,2006.(利用改進的聲調模型提高漢語語音識別中lattice解碼)中,采用的都是啟發式的方法,根據經驗或者通過搜索的辦法選取全局的譜特征模型和聲調模型的權重進行異類模型融合,這種方法通常并不能夠得到最佳的連續語音識別效果,這是因為譜特征模型與聲調模型獨立訓練,在連續語音識別過程中不能較好的匹配;在另一方面,全局的模型權重不能對具體的語音學/語義學情景建模。而且如果異類模型數量增大時,搜索空間也呈指數增長,也增大了人工選取的難度。
發明內容
本發明的目的在于針對現有系統的不足,提供一種基于異類模型區分性融合的漢語語音識別系統,該系統使得多種模型共同作用的語音識別系統中各類模型能夠更適合地互相匹配從而達到最優的識別結果。
本發明是通過以下技術方案實現的,本發明包括:模型概率權重分配模塊、區分性模型概率權重訓練模塊、模型概率權重平滑模塊和區分性融合的語音識別模塊,其中:
模型概率權重分配模塊負責對lattice每條弧所處的上下文語境產生上下文相關的模型概率權重集并進行初始化;
區分性模型概率權重訓練模塊接收初始化的模型概率權重集,產生前后向數據,并利用最小音子錯誤準則來區分性訓練輸出異類模型得到最小音子錯誤累積量,根據最小音子錯誤累積量得到區分性的模型概率權重集;
模型概率權重平滑模塊對輸入上下文相關的模型概率權重集之間進行平滑處理獲得平滑后的模型概率權重集;
區分性融合的語音識別模塊利用平滑處理后的權重集進行語音識別輸出。
所述的模型概率權重分配模塊,根據lattice語音學/語義學的上下文語境產生權重集,上下文語境包括當前音節的帶調音節類型、聲母模型、韻母模型以及漢字詞的情景,模型概率權重分配模塊共產生四種權重集:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810041466.0/2.html,轉載請聲明來源鉆瓜專利網。





