[發明專利]采用感知語譜結構邊界參數的語音端點檢測算法有效
| 申請號: | 201410175090.8 | 申請日: | 2014-04-29 |
| 公開(公告)號: | CN104091593B | 公開(公告)日: | 2017-02-15 |
| 發明(設計)人: | 吳迪;趙鶴鳴;陶智 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G10L15/05 | 分類號: | G10L15/05;G10L21/02 |
| 代理公司: | 南京經緯專利商標代理有限公司32200 | 代理人: | 曹毅 |
| 地址: | 215000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 采用 感知 結構 邊界 參數 語音 端點 檢測 算法 | ||
1.一種采用感知語譜結構邊界參數的語音端點檢測算法,其特征在于所述的算法步驟如下:(1)基于聽覺感知特性的語音增強;(2)語音的二維增強,包括二維噪聲腐蝕算法和二維語音膨脹算法;(3)感知語譜結構邊界?(PSSB)?參數與語音端點檢測。
2.根據權利要求1所述的一種采用感知語譜結構邊界參數的語音端點檢測算法,其特征在于所述的所述的算法步驟如下:
第一步:基于聽覺感知特性的語音增強;采用基于聽覺掩蔽特性的語音增強,在保護語音的基礎上盡可能的抑制噪聲;所述的語音增強方法中掩蔽閾值的計算以及語音增強系統如下:
ⅰ.Bark閾功率譜?
語音信號x(n)經過快速傅立葉變換(FFT)變成頻域信號,信號功率譜為:
????????????????????????????????????????????(1)
Bark功率譜為:
??????????????????????????其中表示第i段Bark頻帶的能量,??表示第i段最低的頻率,?表示第i段最高的頻率;
ⅱ.擴散Bark域功率譜
引入擴散函數,它是一個矩陣,滿足條件:
??????????????????????????????????????????????????????(3)
定義式如下:
?????????????????????(4)
表示兩個頻帶的頻帶號之差;
?????????????????????????ⅲ.?掩蔽能量的偏移函數及掩蔽閾值的計算
?????????????????????????????????????????????(6)
?????????????????????????取值在0和1之間,由語音含量決;是第i段Bark頻帶的掩蔽閾值,將其改稱為,其中b的含義與前面的i相同;
和安靜聽閾的閾值:
???????(8)
相比較,取其最大值,作為最終擬合的掩蔽閾值;其中為相應的Bark掩蔽曲線;
ⅳ.譜相減和減參數的調節
譜相減算法采用的增益函數如下:
?
首先計算每一幀語音的不同Bark域的噪聲掩蔽閾值,然后根據噪聲掩蔽閾值得到自適應的減參數、:若掩蔽閾值較高,殘留噪聲會很自然地被掩蔽而使人耳聽不見,在這種情況下,減參數取它們的最小值;掩蔽閾值較低時,殘留噪聲對人耳的影響很大,有必要去減少它;對于每一幀m,掩蔽閾值的最小值與每幀的減參數和的最大值有關;減參數的應用有如下關系式:
,?
??????????????????????????(10)
其中,和分別為的最小值和最大值;,和,分別是參數、的最小值和最大值;當時,;當時,;式中和?分別是逐幀得到的掩蔽閾值的最小值和最大值;實驗中,我們對各個參數的取值如下:
ⅴ.實時噪聲功率譜估計;采用基于約束方差頻譜平滑和最小值跟蹤的噪聲功率譜估計方法;
?ⅵ.語音增強系統;根據掩蔽閾值得到自適應的減參數、;
第二步:?語音的二維增強;
2.1二維噪聲腐蝕算法
對語音語譜的二維噪聲腐蝕算法,由以下過程決定;首先,對語音進行短時傅立葉變換,每一幀的頻譜由下式計算:
????????????????????????????????(11)
是第m幀語音信號,是第m幀語音信號的頻譜;N為幀的長度和短時傅立葉變換點數;是Hamming窗;每幀的語音信號功率譜可以表示為:
?????????????????????????????????????(12)
即定義為語音信號的語譜;
對的二維噪聲腐蝕被定義為:
??????????????????????????????????????????????(13)
其中是結構元素,是的定義域,是的定義域;平移參數必須在的定義域內,且必須在的定義域之內;
針對能量較弱的殘留噪聲語譜的結構形態,二維噪聲腐蝕算法的結構元素被定義為下式:
??????????????????????????????????????????????????????????(14)
2.2?二維語音膨脹算法
針對二維噪聲腐蝕的結果,二維語音膨脹算法由下式定義:
?????????????????????????????????????????????(15)
其中是結構元素,是的定義域,是的定義域;
所以,二維語音膨脹算法中的結構元素被定義為如下形狀:
???????????????????????????????????????????????????(16)
第三步:感知語譜結構邊界?(PSSB)?參數與端點檢測算法
3.1感知語譜結構邊界(PSSB)參數
本發明用公式(17)中的鄰域模型逼近語音二維增強的結果的梯度;
???????????????????????????????????????????????????????(17)
是此鄰域模型的中心點;而中心鄰域的梯度,可以由下式表示:
??????????????????????????????????????????????(18)
和由公式(19)和公式(20)確定:
????????????????????????????????????????????????(19)
?????????????????????????????????????????(20)
即為的邊界,它可以描述含噪語音語譜中的語音信號連續分布的邊界信息;
提出感知語譜結構邊界參數PSSB如下式:
??????????????????????????????????????(21)
其中是第m幀的PSSB參數,M是總幀數;
3.2?語音端點檢測
采用了針對語音連續性分布特點的檢測方法,以此來區別對待濁音段和端點處的清音段;具體端點檢測方法如下:
(1)首先檢測出PSSB參數大于閾值a并且連續分布m幀的語音段,此段為檢測到的濁音段;
(2)以此段為基礎,所有跟此段連在一起并且連續大于等于閾值b的段,定義為語音段;閾值b的值取的較小,實驗中,b的值取0.01到0.05都具有較好的識別結果;這樣可以把PSSB數值較小的清音段識別出來;
(3)此語音段的起點和終點即為語音端點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410175090.8/1.html,轉載請聲明來源鉆瓜專利網。





