[發明專利]感知語音特征話語識別系統及方法無效
| 申請號: | 01124051.2 | 申請日: | 2001-08-08 |
| 公開(公告)號: | CN1400583A | 公開(公告)日: | 2003-03-05 |
| 發明(設計)人: | 卜令楷;闕志達 | 申請(專利權)人: | 韋爾博泰克公司 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L19/02 |
| 代理公司: | 永新專利商標代理有限公司 | 代理人: | 韓宏 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 感知 語音 特征 話語 識別 系統 方法 | ||
技術領域
本發明總地涉及自動語音識別系統,及更具體地涉及一感知語音的處理及不變化的以元音為基礎的語音特征方式(regime),以實現精確及強健(robust)的自動話語識別。
背景技術
現代自動話語識別(ASR)系統已發展30年以上且已有可觀的進步。然而,仍存在兩個顯著的問題:強健度問題通常涉及在說話環境中的不利條件,例如背景噪音、語音失真、及個人的發音強健度的影響,及精確度問題,涉及輸入語音的誤認。解決這些問題一般需要非常昂貴的硬體花費及空間,且因此一般通常是不可實行的。
對于強健度的問題,已有許多嘗試方法利用電子及機械裝置以濾除噪音,改良信噪比及提高信號增益,但是這些系統具有計算復雜度(例如增加噪音的復合模型頻譜)及檢測器設置的不靈活性(例如消去噪音的麥克風)的問題。相對于單純機械定向的噪音感知,通過人類的話語感知是相對清晰的,在不佳的環境中可實現高識別精確度。例如,對于低于20?dB的輸入SNR,常規的ASR系統的識別精確度被顯著地降低,但是人類可容易地識別信號性質低達0?dB?SNR的話語。當吵雜時,信號失真有時造成人類的嚴重話語誤辨(除非信號本身的振幅太低),及個人發聲強健度特性(至少對說母語者而言)一般不會造成顯著的感知問題。因此,已進行許多嘗試以發展話語識別系統來模仿主要為兩種形式的人類的話語感知。第一種是仿制人類聽覺系統的功能性(例如電子耳蝸的基底膜及發育),但此系統因為來自神經系統及未知的聽神經核之間的交互作用的多個反饋路徑而被復雜化,使得這些嘗試理論上是無瑕的但實踐中是受到限制的。第二種嘗試利用人工神經網絡(ANN)以抽取話語特征、處理動態非線形話語信號,或與統計識別器組合。但是ANN系統具有龐大運算要求的缺點,使得大的詞匯系統不實用。
所有ASR皆要求使用頻譜分析模型以使聲音信號參數收化,以致于與參考頻譜信號的比較可用于進行話語識別。線形預測編碼(LPC)在具有所謂的全極(all-pole)模型化約束的話語結構上進行頻譜分析。此為一般以Xn(eiω)表示的頻譜表示法,其是約束成σ/A(eiω)形式,其中A(eiωU)為如下所述的具有z-變換的pth次多項式:
?????????A(z)=1+a1z-1+a2z-2+...+apz-pLPC頻譜分析單元的輸出為系數(LPC參數)的矢量,其參數地界定全極模型的頻譜,此模型在話語取樣幀的時間周期上與信號頻譜最匹配。現有的話語識別系統一般是利用具有全極模型約束的LPC。然而,在全極頻譜的極位置通常通過在波谷區段的噪音的出現受到影響,此噪音的出現若顯著的話,可顯著地使信號劣化。
普通話涵蓋數萬個各別的字符,其各自發音為一單音節詞,從而提供ASR系統的獨特基礎。然而,普通話(及實際上中文的其他方言)為一種具有以四種詞匯音調之一或一自然音調發音的各別字音節的音調語言。存在408個基本音節及考慮到音調變化,總共有1345個不同的音調音節。因此,獨特字符的數目約為發音的數十倍,使得發生許多僅可依據話語內容解析的同音字。基本的音節各自包含一輔音(起始音)音素(總共21個)及元音(vowel)(末尾音)音素(總共37個)。常規的ASR系統首先利用不同的處理技術檢測輔音音素、元音音素及音調。接著,為了增進識別精確度,選擇一組較高可能性的候選音節,及將此組候選音節與最后選擇的內容核對。現有技術中已知大部分的話語識別系統主要是依賴元音識別,因為已發現元音比輔音的差異性大。因此,精確的元音識別最能精確進行話語識別。
發明內容
本發明為一種用于精確及強健的話語識別的完整系統及方法,它們以將三種感知處理技術應用至話語的傅里葉頻譜為基礎,以通過將感知頻譜投射至一組參考的元音頻譜矢量以供輸入至話語識別器來實現清晰的感知頻譜及該感知頻譜的精確識別。本發明包含一感知話語處理器,用于感知地處理輸入的話語頻譜矢量以供產生一感知頻譜;一存儲裝置,用于存儲多個參考頻譜矢量;及一語音特征映射器,其與該感知話語處理器及該存儲裝置耦合,用于將該感知頻譜映射至該多個參考頻譜矢量。
附圖簡要說明
圖1為顯示根據本發明的話語識別系統的各個步驟及元件的方框圖;
圖2為說明遮蔽音調及通過遮蔽音調產生的遮蔽器的時域圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于韋爾博泰克公司,未經韋爾博泰克公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/01124051.2/2.html,轉載請聲明來源鉆瓜專利網。





