[發明專利]增強語音識別系統穩健性的方法無效
| 申請號: | 200910004798.6 | 申請日: | 2009-02-25 |
| 公開(公告)號: | CN101814290A | 公開(公告)日: | 2010-08-25 |
| 發明(設計)人: | 史媛媛;朱璇;鄧菁 | 申請(專利權)人: | 三星電子株式會社;北京三星通信技術研究有限公司 |
| 主分類號: | G10L21/02 | 分類號: | G10L21/02 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 郭鴻禧;楊靜 |
| 地址: | 韓國京畿*** | 國省代碼: | 韓國;KR |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 增強 語音 識別 系統 穩健 方法 | ||
技術領域
本發明涉及自動語音識別技術,具體地,涉及用于在嘈雜環境中增強語音識別系統穩健性能的方法。
背景技術
如今,語音識別技術被廣泛使用。例如,呼叫中心使用大規模的語音識別系統來識別用戶的語音內容并通過語音分析技術來自動回答用戶的問題。另外,可在語音識別引擎的幫助下通過語音訪問互聯網服務。例如,一些網絡搜索服務提供商同時也推出了基于手機平臺的語音搜索服務,很大程度上解決了用戶在使用手機瀏覽網頁時,不方便輸入文字的問題,提高了用戶的滿意程度。又例如,大量的電子玩具都裝備有嵌入式語音識別引擎,從而使得它們能夠通過語音與玩家進行互動。通過語音識別引擎掃描語音內容并簡要概括內容或為了安全搜索敏感詞。通過語音識別引擎處理多媒體內容的音軌以給出索引,從而方便搜索或瀏覽。隨著語音識別技術的進步,其使用范圍將越來越廣泛。
然而,為了增強語音識別引擎的成功應用,還需要解決一些復雜的問題。如何在噪聲環境中提高語音識別引擎的穩健性能是一個重要的問題。如果語音識別引擎暴露于嘈雜的環境,則很難像在干凈或接近于干凈的環境下工作的一樣。
目前,提出了各種技術和方法來提高語音識別系統的穩健性。可從語音識別系統的框架來研究如何提高語音識別系統的穩健性能。現在,大部分成功的語音識別系統采用如圖1所示的框架。圖1示出了語音識別系統的主要構成框架,其中,一般可包括5個部分:前端處理模塊、頻譜處理模塊、倒譜處理模塊、高斯處理模塊、解碼模塊。首先,接收待分析信號的前端處理模塊接收語音輸入信號,并將其轉換為能夠被二進制機器處理的數字格式。通常,前端處理模塊包括麥克風、模擬/數字(A/D)轉換器和編解碼器。接下來,對數字化的采樣進行時間-頻率分析以提取能夠代表語音的特征的頻域特征。在多數情況下,通過快速傅立葉變換(FTT)來實現該處理。然后,從頻率代表變換更好的代表特征。所述的特征應該是更具有代表性和/或區分度的,并組成精簡的特征集。現在最普遍的特征集是梅爾頻率倒譜系數(Mel-FrequencyCepstrum?Coefficient),或者倒譜。接下來,通過一些距離測量將倒譜與之前已知并存儲在機器中的一些統計信息進行比較,搜索最有可能的能夠產生提取的倒譜的語音單元。在多數情況下,該比較過程非常復雜且包括負責處理語音信息的時間排列問題的耗時的解碼處理。在順序地搜索出每個倒譜的語音單元之后,可輸出語音系列,并通過模擬語音信號給出語音內容的猜測。通過猜測,機器可“識別”用戶所說的語音。
但是在噪聲存在的情況下,圖1的每個模塊的輸入與干凈情況下相比有很大失真。例如,輸入模擬語音信號混雜有噪聲信號。這樣形成了噪聲頻譜,從噪聲頻譜提取的是噪聲倒譜。當將噪聲倒譜與已知的倒譜進行比較時,由于不能從噪聲倒譜得到與干凈環境中的對應部分最近的距離測量,難以搜索出正確的語音單元。因此,搜索出錯誤的語音單元。最后,順序輸出了偏離正確語音的錯誤的語音單元。通常,噪聲越多,識別的效果越差。例如,在車站、餐廳等公共場合,傳統的語音識別系統的識別效果很差。
目前,為了解決該問題,如圖1所示,已經公開了用于圖1中的各個模塊的增強方法。例如,在前端處理過程中,可使用前端增強技術來從嘈雜的語音中估計干凈的語音。總體說來,維納(Wiener)濾波方法是最常用的。可采用多麥克風技術來提高干凈信號估計的精確度。但是該技術方案需要多個麥克風輸入信道,否則難以僅通過單信道的混合輸入估計干凈的語音信號。但是在許多實際應用中,硬件設計限制了多信道的使用,而改變硬件設計是很困難的。
除了維納濾波外,還有其它很多方法嘗試從噪聲頻譜中估計干凈的語音頻譜。比如,在估計了噪聲頻譜之后,從嘈雜的頻譜中減去噪聲頻譜。這一類的方法被命名為噪聲頻譜減法。這類方法在語音增強技術中起到了長久和成功的效應。已經開發了多種良好的算法從混合的頻譜中估計干凈的頻譜。此外,如果允許采用多信道,則可更大程度地提高性能。但是該方法也具有天然的缺陷。首先,從單信道輸入的混合的嘈雜頻譜中估計干凈的頻譜仍是難題;其次,噪聲頻譜減法方法不能給出正確的語音頻譜估計,而只是給出計算的可行近似度。因此,噪聲頻譜減法產生了錯誤因素,將降低語音識別引擎的性能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于三星電子株式會社;北京三星通信技術研究有限公司,未經三星電子株式會社;北京三星通信技術研究有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910004798.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種耐海水腐蝕電纜
- 下一篇:車輛位置方位數顯裝置





