[發明專利]語音的頻譜波峰的檢測以及語音識別方法和系統無效
| 申請號: | 200710199194.2 | 申請日: | 2007-12-20 |
| 公開(公告)號: | CN101465122A | 公開(公告)日: | 2009-06-24 |
| 發明(設計)人: | 趙蕤;鄢翔;丁沛;何磊;郝杰 | 申請(專利權)人: | 株式會社東芝 |
| 主分類號: | G10L15/20 | 分類號: | G10L15/20;G10L15/02;G10L15/08 |
| 代理公司: | 北京市中咨律師事務所 | 代理人: | 李 崢;楊曉光 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 頻譜 波峰 檢測 以及 識別 方法 系統 | ||
技術領域
本發明涉及信息處理技術,具體地,涉及語音的頻譜波峰的檢測以及利用語音的頻譜波峰信息的語音識別技術。
背景技術
自動語音識別(Automatic?Speech?Recognition,ASR)技術的目標是使計算機能夠識別出人所說出的連續語音。通常,自動語音識別過程包括模板生成和匹配識別兩個階段。在模板生成階段,根據樣本語音的頻譜特征建立供比對的模板;在識別階段,當說話人的語音被輸入到計算機內部后,計算機的自動語音識別系統便對這些語音進行特征提取,并以此與事先存儲好的語音模板進行比對,以找出最匹配、最接近的語音樣本,從而據此獲知所輸入的語音的含義,進而據此執行命令或轉換為用戶希望的識別格式。
目前,針對自動語音識別技術提出了很多的算法,但是這些算法基本都是基于較為純凈的語音環境的。也就是說,在目前的自動語音識別系統中,大多數語音模板都是在無噪聲的“純凈”環境中采集/轉換而成的。
但是,實際的語音環境不可避免地存在干擾和噪聲。從而,一旦語音識別的環境中有噪聲和干擾,并且這些噪聲很強時,上述的自動語音識別系統便很難準確地從含噪語音中識別出說話者的語音,從而識別準確率將會大大降低。
從而,目前的自動語音識別系統雖然在安靜環境下可以獲得比較令人滿意的識別準確率,但是其性能在噪聲環境下會急劇下降。
因此,抗噪穩健性對于一個自動語音識別系統的應用來說是十分關鍵的。并且,隨著自動語音識別技術的發展和廣泛應用,對于語音識別的抗噪穩健性的要求愈加嚴格。因為,實際的應用環境要求自動語音識別系統必須能夠應付千差萬別的噪聲環境。
目前,自動語音識別的抗噪穩健性方面的工作主要集中在前端設計,目的是減少噪聲所引起的特征空間的失配。因為,諸如梅爾倒譜系數(Mel-Frequency?Cepstral?Coefficient,MFCC)的傳統語音識別前端主要使用語音信號的功率譜信息,但是,在噪聲環境下,語音信號的功率譜常常會被噪聲所破壞,所以,采用這樣受到噪聲破壞的功率譜來進行語音識別,其準確性勢必會受到影響。
所以,目前有一些改進的前端利用了語音頻譜波峰的信息來提高抗噪穩健性,因為,通常認為語音頻譜波峰受噪聲影響比較小。雖然目前這些基于頻譜波峰的前端對提高抗噪穩健性有一定的積極作用,但是仍然存在一些問題需要解決:
(1)需要從語音頻譜中去掉那些噪聲所引起的頻譜波峰。含噪語音頻譜中一些波峰是由噪聲引起的,如果將噪聲引起的波峰誤認為是語音引起的,則會導致識別性能下降。
(2)語音特征的維數不能增加太多。目前,大部分利用頻譜波峰信息的穩健前端是將單純利用頻譜波峰信息的特征與傳統的梅爾刻度倒譜系數結合起來,因此特征維數會增多。
從而,需要一種能夠可靠地檢測語音的頻譜波峰并在語音識別中使用語音頻譜波峰的信息、以便在不增加語音特征維數的情況下提高語音識別的抗噪穩健性的技術。
發明內容
本發明正是鑒于上述現有技術中的問題而提出的,其目的在于提供一種語音的頻譜波峰的檢測方法和裝置以及語音識別方法和系統,以便在語音頻譜波峰的檢測中利用波峰間距以及相鄰幀的限制去除噪聲波峰來得到可靠的語音頻譜波峰,進而在語音識別中利用可靠的語音頻譜波峰的能量值代替整個功率譜來提取語音的梅爾倒譜系數MFCC特征,從而在不增加語音特征維數的情況下提高語音識別的抗噪穩健性。
根據本發明的一個方面,提供了一種檢測語音的頻譜波峰的方法,包括:從上述語音的功率譜中檢測出語音頻譜波峰候選;以及根據波峰間距和/或相鄰幀的波峰位置,去除上述語音頻譜波峰候選中的噪聲波峰,以檢測出語音頻譜波峰。
根據本發明的另一個方面,提供了一種語音識別方法,包括:利用上述的檢測語音的頻譜波峰的方法,從待識別語音的功率譜中檢測出語音頻譜波峰;以及利用上述語音頻譜波峰的信息獲得上述待識別語音的梅爾倒譜系數特征。
根據本發明的另一個方面,提供了一種語音識別方法,包括:從待識別語音的功率譜中檢測出語音頻譜波峰;利用上述語音頻譜波峰的信息,從上述待識別語音的功率譜計算基于頻譜波峰的向量序列;以及將上述基于頻譜波峰的向量序列輸入到梅爾濾波器組,以獲得該待識別語音的梅爾倒譜系數特征。
根據本發明的另一個方面,提供了一種語音的頻譜波峰的檢測裝置,包括:頻譜波峰候選檢測單元,用于從上述語音的功率譜中檢測出語音頻譜波峰候選;以及噪聲波峰去除單元,用于根據波峰間距和/或相鄰幀的波峰位置,去除上述語音頻譜波峰候選中的噪聲波峰,以檢測出語音頻譜波峰。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社東芝,未經株式會社東芝許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710199194.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:防止低壓電器執行器件誤動作的裝置
- 下一篇:一種車輛疲勞駕駛統計系統及其方法





