[發明專利]對噪聲相對健全的語音識別系統和方法無效
| 申請號: | 00802564.9 | 申請日: | 2000-01-03 |
| 公開(公告)號: | CN1335978A | 公開(公告)日: | 2002-02-13 |
| 發明(設計)人: | 阿多姆·艾瑞爾 | 申請(專利權)人: | D.S.P.C.科技有限公司 |
| 主分類號: | G10L15/20 | 分類號: | G10L15/20;G10L15/12 |
| 代理公司: | 北京康信知識產權代理有限責任公司 | 代理人: | 吳磊 |
| 地址: | 以色列吉威*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 噪聲 相對 健全 語音 識別 系統 方法 | ||
發明領域
本發明一般涉及到語音識別,特別涉及到在噪聲環境中的特定說話人識別技術。
發明背景
噪聲環境中的語音識別是一個經長期研究仍有待解決的任務。這種任務的特征是以下參數:
1.識別是因人而異的,由用戶在一個指定的“訓練對話”中講話的說話語調產生參考模板;
2.希望將訓練語調的數量減少到最小數量(1-3),在現有技術中,這樣能使動態時間彎曲(DTW)匹配算法比隱藏馬爾可夫模型(HMM)算法更加有效:
3.要識別的短語是單字;
4.訓練階段是相對低噪聲的,而識別中需要應付附加的環境噪聲;
5.在用戶按下講話(PTT)按鈕開始講話的瞬時之前,環境噪聲對于系統是未知的;
6.環境噪聲同時具有穩態和非穩態成分;以及
7.系統只有有限的快速存取存儲器,不可能以實時和字識別的方式針對所有參考模板運行DTW匹配算法。因而就需要兩階段處理,第一階段是聲音活動檢測器(VAD),而第二階段是一個DTW匹配器。
在識別階段由噪聲帶來的主要困難有兩個:
1.訓練和識別階段之間在聲學上失配;以及
2.在識別階段中,VAD估算的字終結點不準確。
這兩個問題會導致識別誤差。
在現有技術中有許多針對聲學失配問題的技術。值得一提的是Jean-ClaudeJunqua和Jean-Paul?Haton的Robustness?in?Automatic?SpeechRecognition,Kluwer?Academic?Publishers,1996。Erell等人的美國專利US5,778,342提供了一種技術。
現有技術很少涉及到終結點不準確的問題。一種解決方案是采取不嚴格終結點DTW的形式,可參見下文:
Lawrence?Rabiner和Biing-Hwang?Juang的Fundamentals?of?SpeechRecognition,Prentice?Hall,1993;
Ilan?D.Shallom,Raziel?Haimi-Cohen和Tal?Golan的“Dynamic?TimeWarping?with?Boundaries?Constraint?Relaxation”,IEEE?Conference?inIsrael,1989,pagesl-4;以及
Nakadai等人的美國專利US5,732,394。
在普通DTW中,從講話開始到終結點的頻譜參數序列被當作輸入語言模式來存儲。DTW運算用未知的語言模式與每個參考模板相匹配,并且計算二者之間的距離值。這是用圖1A的曲線來執行的,可作為簡要的參考。輸入語言模式的各幀被放在X軸上,而現行參考模式的各幀被放在Y軸上。通過曲線做一條從左下角起始到右上角終結的路徑,將這些角定義為測試和參考語調的終結點。
然而,在參照圖1B所示的不嚴格終結點解決方案中,DTW路徑不僅限于起始或終結于測試和參考語調的嚴格的終結點。而是這一路徑可以在這些角的一個給定范圍(delta和Qmax_delta)內起始和終結。這種方法真正消除了終結點不準確造成的一些誤差。
然而,不嚴格終結點解決方案存在幾個缺點。作為簡要參考的圖2表示了缺點之一:如果有兩個詞匯字,且一個字和第二個字的一部分相似(用圖中標有“匹配”的一段來表示),識別系統就可能錯誤地指示第一(較長)字的語調和第二(較短)字的參考模板匹配。
不嚴格終結點方法的其他缺點有別于具體的方法。例如,在Shallom的文章中,需要用路徑長度對DTW柵格也就是DTW累計得分上的每一點進行規范化,因為這種不嚴格的起始點允許有多個不同長度的路徑。長度規范化會帶來標準DTW中不存在的極大的計算量。另外,由于規范化,用于最佳匹配路徑的標準DTW解決方案實際上并不是最佳的。例如在美國專利US5,732,394中計算量就很大,因為對每一對測試和參考模式而不只一個都要執行若干次DTW匹配運算。
在以下文章中給出了對不嚴格終結點問題的其他解決方案:
Tom?Claes和Dirk?Van?Compemolle的“SNR-Normalization?for?RobustSpeech?Recognition”,ICASSP96,1996,pages331-334;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于D.S.P.C.科技有限公司,未經D.S.P.C.科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/00802564.9/2.html,轉載請聲明來源鉆瓜專利網。





