[發明專利]一種基于子空間的非特定人孤立詞識別方法及裝置無效
| 申請號: | 201210093120.1 | 申請日: | 2012-04-01 |
| 公開(公告)號: | CN102693723A | 公開(公告)日: | 2012-09-26 |
| 發明(設計)人: | 何亮;巴福生 | 申請(專利權)人: | 北京安慧音通科技有限責任公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/14 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100070 北京市豐臺*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 空間 特定 孤立 識別 方法 裝置 | ||
技術領域
本發明涉及自動語音識別領域,具體而言,是一種基于子空間技術的非特定人孤立詞識別方法及裝置。
背景技術
語音是人類最自然、最靈活、最頻繁的信息交流方式。語音中蘊含多層信息,如何自動提取這些信息便成為當前語音信號處理領域的主要研究內容。作為該領域的一個重要分支,孤立詞(Isolated?Word?Recognition,IWR)是利用計算機,自動從語音片段中提取內容的識別技術,在汽車導航、計算機控制、玩具等諸多領域有廣泛的應用。
目前,非特定人孤立詞識別主要利用統計模式識別的方法,分為訓練和測試兩個階段。訓練階段可分為三個步驟:前端處理,特征提取和建立模型;測試階段可分為四個步驟:前端處理,特征提取,模型匹配和分數判決。通常而言,
(1)前端處理:包括語音增強、活動語音檢測和語音切分等信號處理技術;
(2)特征提取:通常選擇線性預測倒譜系數(Linear?Predictive?Cepstral?Coefficients,LPCC)、梅爾頻率倒譜系數(Mel-Frequency?Cepstral?Coefficient,MFCC)或感知線性預測(Perceptual?Linear?Prediction,PLP);
(3)建模方法(建立模型和模型匹配):主流技術是隱含馬爾科夫模型(Hidden?Markov?Model,HMM);
(4)分數判決:根據閾值,對分數進行比較,對HMM的輸出分數進行處理,給出識別結果。
在上述過程中,建模方法是最為重要的一個環節。對于非特定人的IWR算法,在進行HMM建模時,需要選擇建?;?,通常有三種方法:
(1)整詞:把詞作為建模的基本單元;
(2)聲韻母:把聲韻母作為建模的基本單元。在漢語中,有21個聲母,37個韻母。
(3)音節:將音節作為建模的基本單元。音節分為無調音節和有調音節,在漢語中,無調音節有409個,有調音節有1300個。
上述三種方法各有利弊。一般而言,選擇的基元越精細,系統的計算復雜度就越高,推廣性就越好。例如,選擇整詞作為基元,其計算復雜度低,識別率高(>99%),適用于小規模詞表的IWR系統;選擇聲韻母或音節作為基元,擴展性好,可以通過修改詞表得到便利的應用,適用于大規模詞表的IWR系統,但識別率不高。
選擇聲韻母或音節作為基元,利用HMM建模的非特定人孤立詞識別系統的識別率不高的主要原因有如下幾點:(1)HMM的參數較多,難以準確估值;(2)識別時會引入搜索誤差等。其中,對HMM參數不能準確估值是造成識別率下降的核心因素。
子空間技術認為待估計的數據結構是冗余的,通過線性映射降低建模的自由度,達到準確估值的目的。子空間技術在在圖像識別、文本識別、生物特征識別和雷達型號處理等領域有廣泛的應用。
發明內容
本發明的目的在于:提出一種基于子空間技術的非特定人孤立詞識別方法和裝置,以解決傳統方法中隱含馬爾科夫模型的參數較多,不能被準確估值的問題。
本發明提出一種將子空間技術應用于非特定人孤立詞識別方法和裝置。發明的基本特征是:認為隱含馬爾科夫模型的參數存在冗余,通過線性映射,降低建模的自由度。在相同訓練數據條件下,能更為穩健的估值,解決估值不準的問題。
發明的具體步驟如下:
(1)訓練階段:對于訓練語音,作如下處理,
(1.1)前端處理:包括語音增強,用于抑制背景噪聲,提升語音部分的可懂度,以便后端能夠更好的區分語音信號和非語音信號。采用的方法是頻域的維納濾波;活動語音檢測,用于區分語音信號和非語音信號,去除非語音信號,以便后端對語音信號的識別。采用的方法有G723.1、G723.9等。語音切分,對檢測到的語音信號分幀處理,以便后續的特征提取。
(1.2)特征提?。嚎梢赃x擇LPCC、MFCC或PLP及衍生特征。以MFCC為例,通常提取12維MFCC基本特征和能量構成13維特征。該13維特征是靜態特征,為了反映語音的動態特性,利用靜態特征構造差分特征。將1階、2階差分特征附到靜態特征后,構成用于建模的39維MFCC特征。
(1.3)建立模型:采用聲韻母模型。將聲韻母作為基本單元的好處是:可以將事先訓練好的基元單元按照聲韻母拼接得到整體模型,使構建的非特定人孤立詞識別系統通過修改詞表,就能直接用于識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京安慧音通科技有限責任公司,未經北京安慧音通科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210093120.1/2.html,轉載請聲明來源鉆瓜專利網。





