[發(fā)明專利]一種基于聽覺感知特性的語音質(zhì)量客觀評價方法無效
| 申請?zhí)枺?/td> | 201210332288.3 | 申請日: | 2012-09-11 |
| 公開(公告)號: | CN102881289A | 公開(公告)日: | 2013-01-16 |
| 發(fā)明(設(shè)計)人: | 譚曉衡;秦基偉;周帥;裴婧;黃振林;唐永剛;馬旭東 | 申請(專利權(quán))人: | 重慶大學(xué) |
| 主分類號: | G10L19/00 | 分類號: | G10L19/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 400044 重慶市沙坪壩*** | 國省代碼: | 重慶;85 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 聽覺 感知 特性 語音 質(zhì)量 客觀 評價 方法 | ||
技術(shù)領(lǐng)域
????本發(fā)明涉及一種基于人耳聽覺感知特性的語音質(zhì)量客觀評價技術(shù),更具體地,涉及一種將人耳的聽覺模型引入MFCC特征參數(shù)的提取過程中,通過計算特征參數(shù)的失真程度來實現(xiàn)語音質(zhì)量客觀評價的方法。
背景技術(shù)
語音質(zhì)量評價是衡量語音通信系統(tǒng)性能優(yōu)劣的根本標準之一,從評價主體上講可分為兩大類:主觀評價和客觀評價。ITU-T建議P.830提出的MOS(Mean?Opinion?Score)方法是一種廣泛使用的主觀評價方法,用測試者的平均意見分來直觀地反映人對語音質(zhì)量的感覺,但此類方法可操作性和可重復(fù)性較差。客觀評價方法通過測量語音信號特征參數(shù)來評價語音質(zhì)量,使客觀評價結(jié)果能夠準確預(yù)測出語音質(zhì)量的主觀評價結(jié)果,具有更高的實用價值。基于輸入-輸出方式的客觀評價方法是以語音系統(tǒng)的輸入信號和輸出信號之間的誤差大小來判別語音質(zhì)量的好壞,是一種誤差度量。目前,比較成熟的算法基本上都是基于輸入-輸出方式的,包括:PESQ、Mel-CD等。
ITU-T建議P.862提出的PESQ感知語音質(zhì)量評價是當前性能很高的語音質(zhì)量客觀評價方法,能夠較好地識別通信時延、環(huán)境噪聲和錯誤,但其是基于Bark譜的感知模型,運算復(fù)雜度較高,不利于實時評價語音質(zhì)量。
Mel-CD失真測度以MFCC作為語音特征參數(shù),運算復(fù)雜度較低,是一種簡便有效的語音質(zhì)量評價方法,但其評價性能與PESQ相差較大。分析表明,雖然MFCC特征參數(shù)提取過程中利用了人耳的聽覺原理和Mel倒譜的解相關(guān)特性,但是其采用了三角形濾波器組來模擬耳蝸基底膜的頻率選擇特性和對數(shù)運算來模擬幅值非線性變換過程,并不能充分地反映人耳的聽覺感知特性。
Gammatone濾波器具有尖銳的頻率選擇特性,濾波器邊沿的衰減很緩慢,有效地避免了相鄰頻帶間的能量泄露,這些幅頻響應(yīng)特性與人耳蝸基底膜的濾波特性是一致的,也補償了不同的人發(fā)同一音時共振峰的偏移對語音特征參數(shù)提取的影響;同時該濾波器只需要較少的參數(shù)就能很好地模擬聽覺實驗中的生理數(shù)據(jù),便于進行濾波器性能分析和聽覺模型的實現(xiàn)。非線性壓縮運算基于強度-響度感知變換,能使特征參數(shù)的提取過程更好地符合聽覺生理模型。
發(fā)明內(nèi)容??
本發(fā)明的目的是針對MFCC特征參數(shù)提取過程中存在的問題,提供一種簡單有效的基于人耳聽覺感知特性的語音質(zhì)量客觀評價技術(shù),使用Gammatone濾波器組和非線性壓縮運算來更好地模擬人耳的聽覺生理模型,得到一種新的特征參數(shù)來進行語音質(zhì)量客觀評價。說明書附圖1示出了基于輸入-輸出方式的語音質(zhì)量客觀評價方法的基本處理過程。?
基于聽覺感知特性的語音質(zhì)量客觀評價方法是這樣實現(xiàn)的:
1.采集原始語音和通過被測系統(tǒng)的失真語音,對兩路語音信號進行電平調(diào)整、帶通濾波和時間對齊等預(yù)處理,以便于分別提取兩路信號的特征參數(shù);
2.加漢寧窗對預(yù)處理后的語音信號進行分幀,提取每幀信號的特征參數(shù)。附圖2示出了語音信號特征參數(shù)的提取流程。首先,使用在Mel尺度上均勻分布Gammatone濾波器組對語音幀信號的能量譜進行濾波,能很好地仿真基底膜的頻率選擇特性、頻譜分析特性和動態(tài)響應(yīng)過程等特征;接著,對每個濾波器的輸出能量進行立方根非線性壓縮變換來模擬人耳對語音的強度-響度感知特性,這不僅符合了人耳的聽覺感知特性,而且計算過程簡單;然后,立方根能量經(jīng)過RASTA濾波,抑制了信號頻譜中的常量或變化緩慢的非語音部分,同時增強了動態(tài)成分;最后,經(jīng)過DCT變換(離散余弦變換)到倒譜域,即可實現(xiàn)特征參數(shù)的提取;
3.計算原始語音和失真語音特征參數(shù)之間的平均動態(tài)Mel倒譜距離D,用D來表示失真語音相對于原始語音的失真大小。使用二次多項式將倒譜距離D映射為客觀(預(yù)測)MOS值,MOS值的大小說明了被測系統(tǒng)語音質(zhì)量的好壞。
與其它的技術(shù)相比,本發(fā)明具有以下的優(yōu)點:
1.使用Gammatone濾波器組和立方根非線性壓縮運算來模擬人耳的聽覺生理模型,有效地提高了客觀評價結(jié)果與主觀評價結(jié)果的相關(guān)度;
2.Gammatone濾波器用較少的參數(shù)就能很好地模擬聽覺實驗中的生理數(shù)據(jù),立方根變換避免了復(fù)雜的計算模型,使得算法復(fù)雜度低且運行時間較短,適合于語音質(zhì)量實時評價和嵌入式系統(tǒng)實現(xiàn);
3.適用于評價CS-ACELP、ADPCM、LD-CELP、GSM、????????????????????????????????????????????????-PCM/A-PCM和VSELP等編碼算法下的語音信號,算法通用性強;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶大學(xué),未經(jīng)重慶大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210332288.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 時域聽覺閾值加權(quán)濾波器的構(gòu)造方法和設(shè)備、編解碼器
- 聽覺系統(tǒng)和用于操作聽覺系統(tǒng)的方法
- 聽覺事件相關(guān)電位測量系統(tǒng)、聽覺事件相關(guān)電位測量方法及其計算機程序
- 一種聽覺功能檢測處理系統(tǒng)
- 音量調(diào)節(jié)方法及裝置
- 具有對齊的聽覺感知的助聽器系統(tǒng)
- 一種老年人聽力康復(fù)用的聽覺功能評估耳機及其評估方法
- 一種聽覺通路評估分析系統(tǒng)及其方法
- 一種基于虛擬現(xiàn)實的聽覺功能訓(xùn)練及檢測系統(tǒng)
- 帶有能引起骨傳導(dǎo)和空氣傳導(dǎo)聽覺的接收器的電話
- 基于策略的業(yè)務(wù)感知模型及感知方法
- 一種基于分區(qū)感知的無線通信系統(tǒng)頻譜感知方法
- 確定空閑頻段的方法和系統(tǒng)、中心節(jié)點和感知節(jié)點
- 感知無線網(wǎng)絡(luò)的共享協(xié)作頻譜感知方法、感知節(jié)點和匯聚中心
- 感知無線網(wǎng)絡(luò)的協(xié)作頻譜感知方法和感知節(jié)點
- 頻譜感知方法、頻譜感知設(shè)備和數(shù)據(jù)庫
- 基于認知數(shù)據(jù)庫和頻譜感知的頻譜共享方法及裝置
- 一種頂層感知限位組
- 一種自動駕駛汽車用升降式智能感知模塊
- 感知數(shù)據(jù)獲取方法和裝置





