[發明專利]一種基于語音聲學特征的聲帶異常檢測方法在審

申請號：	201710101549.3	申請日：	2017-02-24
公開（公告）號：	CN106941005A	公開（公告）日：	2017-07-11
發明（設計）人：	李艷雄;李先苦;張聿晗;張雪	申請（專利權）人：	華南理工大學
主分類號：	G10L21/0208	分類號：	G10L21/0208;G10L25/03;G10L25/24;G10L25/66;A61B5/00
代理公司：	廣州市華學知識產權代理有限公司44245	代理人：	李斌
地址：	510640 廣***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于語音聲學特征聲帶異常檢測方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及語音信號處理和機器學習技術，尤其涉及一種基于語音聲學特征的聲帶異常檢測方法。

背景技術

語音是人類交流的重要手段之一，語音交流障礙嚴重影響人們的正常生活。聲帶病變是導致語音交流障礙的主要因素之一。聲帶異常情況的準確診斷是發音康復治療的前提，在臨床醫學中尤為重要。傳統的聲帶異常檢測方法是采用喉鏡或者電聲門圖儀。基于喉鏡的檢測方法具有入侵性，將喉鏡插入測試者喉部，需要測試者極力配合，會給測試者帶來難以接受的痛苦。另外，做喉鏡檢測時測試者沒法正常發聲，無法檢測聲帶振動情況，具有一定的局限性。基于電聲門圖儀的檢測方法需要將兩個電極板緊貼在測試者頸部，也會給測試者帶來不適感，不適合頸部肥胖者，特別是老人、女性和小孩。

發明內容

本發明的主要目的在于克服現有技術的缺點與不足，提供一種基于語音聲學特征的聲帶異常檢測方法，本發明的方法通過提取測試者語音的聲學特征，再采用GMM分類器進行判決，從而診斷測試者的聲帶是否異常。

為了達到上述目的，本發明采用以下技術方案：

一種基于語音聲學特征的聲帶異常檢測方法，包括下述步驟：

S1、讀取語音：讀入語音樣本，得到語音序列S(n)；

S2、預處理：對語音數據進行預加重、分幀、加窗和去靜音處理，得到語音幀S_t(n)，1≤t≤T，其中T表示語音幀數；

S3、提取聲學特征：從語音幀S_t(n)中提取梅爾頻率倒譜系數(Mel-FrequencyCepstral Coefficients,MFCC)，基頻(F₀)，基頻微擾(Jitter)，振幅微擾(Shimmer)，諧噪比(Harmony Noise Ratio,HNR)，得到特征矩陣F＝[MFCC,F₀,Jitter,Shimmer,HNR]；

S4、訓練高斯混合模型(Gaussian Mixture Model,GMM)：以特征矩陣F作為輸入，采用期望最大化(Expectation Maximization,EM)算法分別訓練代表聲帶異常和聲帶正常的高斯混合模型θ_A和θ_N；

S5、聲帶異常判決：將測試語音的特征矩陣F分別輸入高斯混合模型θ_A和θ_N，得到相應的輸出概率P(F|θ_A)和P(F|θ_N)，如果P(F|θ_A)>P(F|θ_N)，則測試語音的說話人聲帶異常，否則正常。

優選的，步驟S2中預處理包括如下步驟：

S2.1、預加重：利用數字濾波器h(n)對語音數據進行濾波處理，h(n)的Z變換H(z)表示為：

H(z)＝1-μz^-1，

其中μ取0.98；

S2.2、分幀：將預加重后的語音數據進行分幀處理，設置語音幀的幀長L，幀移S；

S2.3、加窗：將每幀語音S_t(n)與窗函數相乘，其中窗函數為漢明窗ω(n)：

其中N表示一幀語音的采樣點數，且N＝L×f_s，其中f_s表示語音采樣頻率；

S2.4、去靜音：

S2.4.1、計算第t幀語音S_t(n)的能量E_t：

得到語音流的能量特征矢量E＝[E₁,E₂,…,E_T]，其中T為總幀數；