[發明專利]采用感知語譜結構邊界參數的語音端點檢測算法有效

申請號：	201410175090.8	申請日：	2014-04-29
公開（公告）號：	CN104091593B	公開（公告）日：	2017-02-15
發明（設計）人：	吳迪;趙鶴鳴;陶智	申請（專利權）人：	蘇州大學
主分類號：	G10L15/05	分類號：	G10L15/05;G10L21/02
代理公司：	南京經緯專利商標代理有限公司32200	代理人：	曹毅
地址：	215000 江蘇***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	采用感知結構邊界參數語音端點檢測算法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種采用感知語譜結構邊界參數的語音端點檢測算法，其特征在于所述的算法步驟如下：（1）基于聽覺感知特性的語音增強；（2）語音的二維增強，包括二維噪聲腐蝕算法和二維語音膨脹算法；（3）感知語譜結構邊界?(PSSB)?參數與語音端點檢測。

2.根據權利要求1所述的一種采用感知語譜結構邊界參數的語音端點檢測算法，其特征在于所述的所述的算法步驟如下：

第一步：基于聽覺感知特性的語音增強；采用基于聽覺掩蔽特性的語音增強，在保護語音的基礎上盡可能的抑制噪聲；所述的語音增強方法中掩蔽閾值的計算以及語音增強系統如下：

ⅰ.Bark閾功率譜?

語音信號x(n)經過快速傅立葉變換(FFT)變成頻域信號，信號功率譜為：

????????????????????????????????????????????(1)

Bark功率譜為：

??????????????????????????其中表示第i段Bark頻帶的能量,??表示第i段最低的頻率,?表示第i段最高的頻率；

ⅱ.擴散Bark域功率譜

引入擴散函數,它是一個矩陣,滿足條件：

??????????????????????????????????????????????????????(3)

定義式如下：

?????????????????????(4)

表示兩個頻帶的頻帶號之差；

?????????????????????????ⅲ.?掩蔽能量的偏移函數及掩蔽閾值的計算

?????????????????????????????????????????????(6)

?????????????????????????取值在0和1之間，由語音含量決；是第i段Bark頻帶的掩蔽閾值，將其改稱為，其中b的含義與前面的i相同；

和安靜聽閾的閾值：

???????(8)

相比較，取其最大值，作為最終擬合的掩蔽閾值；其中為相應的Bark掩蔽曲線；

ⅳ.譜相減和減參數的調節

譜相減算法采用的增益函數如下：

首先計算每一幀語音的不同Bark域的噪聲掩蔽閾值，然后根據噪聲掩蔽閾值得到自適應的減參數、：若掩蔽閾值較高，殘留噪聲會很自然地被掩蔽而使人耳聽不見，在這種情況下，減參數取它們的最小值；掩蔽閾值較低時，殘留噪聲對人耳的影響很大，有必要去減少它；對于每一幀m，掩蔽閾值的最小值與每幀的減參數和的最大值有關；減參數的應用有如下關系式：

，?

??????????????????????????(10)

其中，和分別為的最小值和最大值；，和，分別是參數、的最小值和最大值；當時，；當時，；式中和?分別是逐幀得到的掩蔽閾值的最小值和最大值；實驗中，我們對各個參數的取值如下：

ⅴ.實時噪聲功率譜估計；采用基于約束方差頻譜平滑和最小值跟蹤的噪聲功率譜估計方法；

?ⅵ.語音增強系統；根據掩蔽閾值得到自適應的減參數、;

第二步：?語音的二維增強；

2.1二維噪聲腐蝕算法

對語音語譜的二維噪聲腐蝕算法，由以下過程決定；首先，對語音進行短時傅立葉變換，每一幀的頻譜由下式計算：

????????????????????????????????(11)

是第m幀語音信號，是第m幀語音信號的頻譜；N為幀的長度和短時傅立葉變換點數；是Hamming窗；每幀的語音信號功率譜可以表示為：

?????????????????????????????????????(12)

即定義為語音信號的語譜；

對的二維噪聲腐蝕被定義為：

??????????????????????????????????????????????(13)

其中是結構元素，是的定義域，是的定義域；平移參數必須在的定義域內，且必須在的定義域之內；

針對能量較弱的殘留噪聲語譜的結構形態，二維噪聲腐蝕算法的結構元素被定義為下式：

??????????????????????????????????????????????????????????(14)

2.2?二維語音膨脹算法

針對二維噪聲腐蝕的結果，二維語音膨脹算法由下式定義：

?????????????????????????????????????????????(15)

其中是結構元素，是的定義域，是的定義域；

所以，二維語音膨脹算法中的結構元素被定義為如下形狀：

???????????????????????????????????????????????????(16)

第三步：感知語譜結構邊界?(PSSB)?參數與端點檢測算法

3.1感知語譜結構邊界（PSSB）參數

本發明用公式(17)中的鄰域模型逼近語音二維增強的結果的梯度；

???????????????????????????????????????????????????????(17)

是此鄰域模型的中心點；而中心鄰域的梯度，可以由下式表示：

??????????????????????????????????????????????(18)

和由公式(19)和公式(20)確定：

????????????????????????????????????????????????(19)

?????????????????????????????????????????(20)

即為的邊界，它可以描述含噪語音語譜中的語音信號連續分布的邊界信息；

提出感知語譜結構邊界參數PSSB如下式：

??????????????????????????????????????(21)

其中是第m幀的PSSB參數，M是總幀數；

3.2?語音端點檢測

采用了針對語音連續性分布特點的檢測方法，以此來區別對待濁音段和端點處的清音段；具體端點檢測方法如下：

(1)首先檢測出PSSB參數大于閾值a并且連續分布m幀的語音段，此段為檢測到的濁音段；

(2)以此段為基礎，所有跟此段連在一起并且連續大于等于閾值b的段，定義為語音段；閾值b的值取的較小，實驗中，b的值取0.01到0.05都具有較好的識別結果；這樣可以把PSSB數值較小的清音段識別出來；

(3)此語音段的起點和終點即為語音端點。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于蘇州大學，未經蘇州大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201410175090.8/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種抓盤器及用該抓盤器加載、卸載及回收光盤的方法
下一篇：應用于2D-3D信號設置的柵極驅動電路

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創建基準模板；訓練語音識別系統，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】