[發明專利]一種基于伽馬通相關圖語音特征參數提取方法無效
| 申請號: | 201410215133.0 | 申請日: | 2014-05-20 |
| 公開(公告)號: | CN103985390A | 公開(公告)日: | 2014-08-13 |
| 發明(設計)人: | 馬多佳;劉孟美;楊楊 | 申請(專利權)人: | 北京安慧音通科技有限責任公司 |
| 主分類號: | G10L25/03 | 分類號: | G10L25/03;G10L25/15;G10L25/84;G10L25/93 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100070 北京市豐臺*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 伽馬通 相關 語音 特征 參數 提取 方法 | ||
技術領域
本發明涉及自動語音處理領域,具體而言,是一種基于相關圖語音特征參數提取方法及應用。
背景技術
語音是人類最自然、最靈活、最頻繁的信息交流方式。語音中蘊含多層信息,如何自動提取這些信息便成為當前語音信號處理領域的主要研究內容。作為該領域的一個重要分支,自動從語音片段中提取表征內容、身份等信息的識別技術,在汽車導航、計算機控制、玩具等諸多領域有廣泛的應用。
語音信號處理從本質上講就是要盡可能的模擬人耳的聽覺過程。而在人耳的聽覺系統中,耳蝸對聲音的感知一直是研究的熱點之一。耳蝸通常被描述維一組帶通濾波器,且濾波器組的每個頻帶具有尖銳的頻率選擇性,通過采用這樣的濾波器組模擬耳蝸基底膜分頻作用。研究發現,人耳聽覺系統對頻率調制信號非常敏感,比如警車聲、救護車聲就特別容易引起人耳的注意,因此,現有的聽覺模型都在表示譜包絡和幅度調制的特征基礎上,增加了表示相位譜(即頻率調制)的信息。基于伽瑪函數的濾波器參數簡單,階數低,可以采用簡單的時域函數實現。借用相關圖的概念引入聽覺濾波器相關圖(Cochlear?Correlogram)。所謂聽覺濾波器相關圖就是考慮到語音信號通過聽覺濾波器后表現為多通道信號的疊加,為了動態描述各個通道濾波器在頻域和時域的相互關系而引入的概念。聽覺濾波器相關圖特征提取方法就是通過對濾波器組的各個通道相關圖所表現出來的特性對語音信號的內容等信息進行描述。
一般的語音產生模型包括三個部分:激勵源,聲道模型和輻射模型。在傳統語音信號處理方法中,基音頻率在一幀范圍內被視為常數,從而濁音的激勵信號可以用一個周期脈沖發生器來產生。實際上,對于語音信號,特別是有調語言的語音信號,基音頻率在一幀之內也是連續變化的。考慮到語音的諧波結構與基音值的變化,濁音可以建模為一個調幅調頻信號。
目前,語音信號處理的應用主要集中在語音識別和語音合成等方面,主要利用對所提取的特征進行統計分析的方法。例如語音識別和語音合成技術(基于HMM的參數合成方法)中的訓練和測試兩個階段的建模和分類過程。在訓練階段的三個步驟為:前端處理,特征提取和建立模型;測試階段的四個步驟:前端處理,特征提取,模型匹配和分數判決。通常而言,
(1)前端處理:包括語音增強、活動語音檢測和語音切分等信號處理技術;
(2)特征提取:通常選擇線性預測倒譜系數?(Linear?Predictive?Cepstral?Coefficients,LPCC)、梅爾頻率倒譜系數?(Mel-Frequency?Cepstral?Coefficient,MFCC)或感知線性預測?(Perceptual?Linear?Prediction,PLP);
(3)建模方法(建立模型和模型匹配):主流技術是隱含馬爾科夫模型?(Hidden?Markov?Model,HMM);
(4)分數判決:根據閾值,對分數進行比較,對HMM的輸出分數進行處理,給出識別結果。
在上述過程中,特征提取作為訓練和測試中基礎環節,對語音信號處理的效果影響顯而易見。根據人耳對不同頻率的聲波有不同的聽覺靈敏度的特點所發展起來的MFCC為現今語音識別廣泛采用的一種特征參數,它反映了人耳聽覺系統的某些頻率特性,但是,MFCC以及多數在語音識別中采用的特征參數由于僅反映了譜特性、缺乏時間信息,而導致對語音中迅速變化的成分(如爆破音)無法處理。另外,在語音感知中起重要作用的共振峰間的過渡,在MFCC參數中也只是間接地有所反映。由于聲調或協同發音等的影響,基音和諧波都是隨時間變化的,因此在計算譜包絡時,若將這些變化因素體現到能量分布計算中,有望得到更具區分性的特征以改善語音識別率。目前大部分語音識別系統中所采用的聲學特征,無論MFCC或是PLP,都僅僅體現了信號的幅度調制即包絡特性。一般來講,在實際的傳輸環境中,僅依賴于信號某一方面特性的特征集在環境發生改變時,性能會急劇下降,而若是將體現信號不同方面特性的特征結合起來,則可在環境變化時表現出較好的魯棒性。
發明內容
本發明的目的在于:考慮到語音信號通過聽覺濾波器后表現為多通道信號的疊加,為了動態描述各個通道濾波器在頻域和時域的相互關系而引入聽覺濾波器相關圖(Cochlear?Correlogram)的概念。本發明利用聽覺濾波器組在時域將單通道語音分解成多個不同頻段的時域信號,這相當于用單通道信號構建出不同頻率成分的多通道信號。這樣獲得的時域信號,分別包含了基音和各個共振峰等信息。再利用聽覺濾波器相關圖將語音中基頻和共振峰的信息提取出來。
發明的具體步驟如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京安慧音通科技有限責任公司,未經北京安慧音通科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410215133.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于光學儀器的手機拍照固定裝置
- 下一篇:一種帶輔助手柄的砂輪直磨機





