[發明專利]噪聲環境下人工耳蝸信號的說話人可懂性檢測方法有效
| 申請號: | 201711111307.9 | 申請日: | 2017-11-10 |
| 公開(公告)號: | CN107767859B | 公開(公告)日: | 2020-10-20 |
| 發明(設計)人: | 林琳;孫曉穎;陳建;楊鵬;王程;王秀成;趙靜儀 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G10L15/01 | 分類號: | G10L15/01;G10L25/27;G10L25/45;G10L25/51;G10L15/14 |
| 代理公司: | 吉林長春新紀元專利代理有限責任公司 22100 | 代理人: | 魏征驥 |
| 地址: | 130000 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 噪聲 環境 人工 耳蝸 信號 說話 人可懂性 檢測 方法 | ||
1.一種噪聲環境下人工耳蝸信號的說話人可懂性檢測方法,其特征在于,包括下列步驟:
(一)人工耳蝸處理過程如下:
(1)、語音信號的預處理
語音信號的預處理包括端點檢測、均方根歸一化、將輸入信號采樣率調整為Fs、預加重、分幀和加窗,得到預處理后N個幀長為L的短時幀信號;
(2)、對預處理后的語音信號進行FFT帶通濾波器組濾波,包括以下步驟:
1)對加窗的短時幀信號進行FFT變換,計算每個短時幀頻譜S(l,i);其中i=1,…,N表示第i個短時幀,l表示每個短時幀第l個頻率點取值,l=0,1,2,…,L-1;
2)利用Nc個通道帶通濾波器組對每個短時幀頻譜進行濾波,保留落入相應通道頻率范圍的頻率分量,其余頻率分量濾除;
(3)、各通道包絡提取
采用希爾伯特變換的方式,提取每個短時幀信號頻譜中的包絡,令j表示第j個通道的帶通濾波器,其中j=1,…,Nc;q表示第j個帶通濾波器通帶內對應頻率節點的個數,則經過FFT帶通濾波器組后得到的每個通道的包絡F(j,i);
式中,Fs為信號的采樣率,ck為通道增益系數,k=1,2,…,Nc,滿足
其中|G(0)|表示漢寧窗經傅里葉變換后得到直流分量的幅度值,|G(0.5)|是將漢寧窗補零至原來長度的兩倍后,進行傅里葉變換得到的第二個諧波分量的幅度值,根據不同通道內包含的頻率分量個數q的大小,由上式選擇對應的通道增益系數,以便均衡各通道的包絡能量;
(4)、峰值選擇
從Nc個通道的包絡中選擇n個幅值最大的包絡值來表示產生電刺激的電極點,并利用Id來記錄n個幅值最大通道的通道號,Amc表示n個幅值最大通道對應的包絡;
(5)、幅度壓縮
對于被選中作為產生電刺激的電極通道而言,需要計算各通道電極的刺激脈沖時間,并對其振幅信號Amc進行幅值壓縮處理,以滿足電刺激的動態范圍,最終得到刺激電極上交叉脈沖刺激序列的電流幅度Im,m=1,2,…,n,這里,電極是由底至頂的順序產生刺激信號;
(6)、語音波形重構
(1)輸入幅度壓縮后的刺激電極上交叉脈沖刺激序列的電流幅度信號Im;
(2)使用截止頻率為Ls的低通濾波器估計每個通道的包絡AL;
(3)利用人工耳蝸處理算法過程中的FFT濾波器,對隨機白噪聲信號進行頻域濾波;
(4)用白噪聲信號頻域濾波后的信號對幅度壓縮后各通道的包絡進行調制;
(5)將每個通道的信號轉變為時域函數,然后重疊相加所有通道的信號,最終得到經過人工耳蝸處理后的語音信號;
(二)特定說話人的語音建模方法
包括下列步驟:
(1)、輸入純凈訓練語音信號,經過上述步驟(一)人工耳蝸處理,得到純凈訓練語音經人工耳蝸處理后的重構語音CleanCI;
(2)、提取步驟(1)產生的語音信號CleanCI的短時譜參數,得到CleanCI語音信號的短時譜參數FCleanCI;
(3)、特征提取算法步驟:首先將語音信號通過動態Gammachirp濾波器組,在每個頻率通道中計算包絡,然后以100Hz的采樣率采樣,利用對數log函數進行壓縮,取其離散余弦變換,最終得到短時譜參數FCleanCI;
(4)、計算短時譜參數FCleanCI一階動態參數△FCleanCI,并形成組合特征參數FDCleanCI=[FCleanCI△FCleanCI];
(5)、利用所有參考說話人的特征參數FDclean訓練與說話人無關的隱馬爾科夫語音模型,作為說話人獨立的背景模型SI;
(6)、利用背景模型SI和每個參考說話人特征參數FDclean_w,其中w=1,2,...,Nw,這里Nw是參考說話人個數,采用Baum-Welch算法對每一個參考說話人的每個關鍵詞建立隱馬爾科夫模型(hidden Markov models,HMMs)λwb,其中b表示關鍵詞序號,b=1,2,..Nb在每個詞的HMMs模型λwb中,每個音素使用兩個狀態表示,不同關鍵詞模型λwb中狀態的個數直接由關鍵詞包含的音素個數決定,每個狀態有兩個轉移特性,自轉移和到邊界狀態的轉移,每個狀態由Mh個混合度的高斯混合模型構成,高斯混合模型的協方差矩陣采用對角陣,所有的模型狀態都由一個單高斯模型初始化,然后混合度自適應變成2、3、4、5個,直到最后得到Mh個混合度的高斯混合模型GMM;
(三)說話人可懂度檢測方法
(1)、輸入純凈識別語音,加入噪聲信號,按照信噪比SNR的要求,得到不同信噪比條件下的帶噪識別語音;
(2)、分別將純凈識別語音和帶噪識別語音進行人工耳蝸處理算法處理,得到純凈識別語音經人工耳蝸處理后的重構語音RCleanCI和加入噪聲后的人工耳蝸語音信號RNoisyCI;
(3)、分別提取前一步驟(2)產生的語音信號RNoisyCI和RCleanCI的短時譜參數RFNoisyCI和RFCleanCI;
(4)、可靠小區域塊檢測
1)分別短時譜參數RFNoisyCI和RFCleanCI計算每個時頻單元的局部信噪比,分別得到SNR(t,f),這里t表示時間,f表示頻率;
2)計算掩碼IRM(t,f)
這里,β是一個衡量掩碼的可調參數;
3)確定時頻單元中可靠的時頻單元點;
設置相應的閾值T,比較每個時頻單元掩碼與閾值T之間的大小,如果對應時頻單元點的值大于閾值T,則認為該時頻單元點為可靠的,用“1”進行標注,否則標記“0”;
4)確定可靠的小區域塊;
如果某個區域塊中包含的可靠時頻單元點數大于設定的M點,則認為該區域就是可靠的小區域塊,否則該區域為掩蔽區域,利用這個原則,對標注的時頻單元Mask(t,f)進行分析,得到經過CI處理后帶噪語音時頻單元中可靠的小區域塊Gc,c=1,2,…,C,其中C表示可靠小區域的個數;
(5)、利用短時譜參數RFNoisyCI計算其一階動態參數△RFNoisyCI,并形成組合參數RFDNoisyCI=[FNoisyCI△FNoisyCI];
(6)、對于每一個參考說話人的識別語音,根據上述確定的可靠小區域塊以及掩蔽區域,采用基于缺失數據特征的識別方法進行識別;
其中iw∈[1,Nw],ib∈[1,Nb];
根據公式(6)得到的識別結果,統計每一個說話人每句話關鍵詞識別的識別率,作為每個說話人可懂度的檢測結果;
(7)、在實際的聽力測試中,對每一條識別語音,聽力測試者需要記錄對應的語音是哪個說話人的第幾個關鍵詞,然后按照公式(7)的標準進行統計計算,得到每個說話人可懂度的檢測結果,與理論檢測結果比對,驗證計算有效性。
2.根據權利要求1所述的一種噪聲環境下人工耳蝸信號的說話人可懂性檢測方法,其特征在于:步驟(三)說話人可懂度檢測方法中(6)、采用基于缺失數據特征的識別方法進行識別的方法是:采用邊緣化算法,完全忽略不可靠的組合參數,用可靠的組合參數RFDNoisyCI_r進行識別,則利用Viterbi算法估計后驗概率f(RFDNoisyCI|λwb)=f(RFDNoisyCI_r|λwb),找到最大后驗概率對應的關鍵詞模型作為識別結果,iw和ib分別指的是識別語音被識別為說話人iw的第ib個關鍵詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711111307.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種語音處理方法、裝置及服務器
- 下一篇:語音數據處理方法、系統及存儲介質





