[發(fā)明專利]一種基于語音聲學(xué)特征的聲帶異常檢測方法在審
| 申請?zhí)枺?/td> | 201710101549.3 | 申請日: | 2017-02-24 |
| 公開(公告)號: | CN106941005A | 公開(公告)日: | 2017-07-11 |
| 發(fā)明(設(shè)計)人: | 李艷雄;李先苦;張聿晗;張雪 | 申請(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L25/03;G10L25/24;G10L25/66;A61B5/00 |
| 代理公司: | 廣州市華學(xué)知識產(chǎn)權(quán)代理有限公司44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語音 聲學(xué) 特征 聲帶 異常 檢測 方法 | ||
1.一種基于語音聲學(xué)特征的聲帶異常檢測方法,其特征在于,包括如下步驟:
S1、讀取語音:讀入語音樣本,得到語音序列S(n);
S2、預(yù)處理:對語音數(shù)據(jù)進(jìn)行預(yù)加重、分幀、加窗和去靜音處理,得到語音幀St(n),1≤t≤T,其中T表示語音幀數(shù);
S3、提取聲學(xué)特征:從語音幀St(n)中提取梅爾頻率倒譜系數(shù)MFCC,基頻F0,基頻微擾Jitter,振幅微擾Shimmer,諧噪比HNR,得到特征矩陣F=[梅爾頻率倒譜系數(shù)MFCC,基頻F0,基頻微擾Jitter,振幅微擾Shimmer,諧噪比HNR];
S4、訓(xùn)練高斯混合模型GMM:以特征矩陣F作為輸入,采用期望最大化EM算法分別訓(xùn)練代表聲帶異常和聲帶正常的高斯混合模型θA和θN;
S5、聲帶異常判決:將測試語音的特征矩陣F分別輸入高斯混合模型θA和θN,得到相應(yīng)的輸出概率P(F|θA)和P(F|θN),如果P(F|θA)>P(F|θN),則測試語音的說話人聲帶異常,否則正常。
2.根據(jù)權(quán)利要求1所述的一種基于語音聲學(xué)特征的聲帶異常檢測方法,其特征在于,步驟S2中預(yù)處理包括如下步驟:
S2.1、預(yù)加重:利用數(shù)字濾波器h(n)對語音數(shù)據(jù)進(jìn)行濾波處理,h(n)的Z變換H(z)表示為:
H(z)=1-μz-1,
其中μ取0.98;
S2.2、分幀:將預(yù)加重后的語音數(shù)據(jù)進(jìn)行分幀處理,設(shè)置語音幀的幀長L,幀移S;
S2.3、加窗:將每幀語音St(n)與窗函數(shù)相乘,其中窗函數(shù)為漢明窗ω(n):
其中N表示一幀語音的采樣點(diǎn)數(shù),且N=L×fs,其中fs表示語音采樣頻率;
S2.4、去靜音:
S2.4.1、計算第t幀語音St(n)的能量Et:
得到語音流的能量特征矢量E=[E1,E2,…,ET],其中T為總幀數(shù);
S2.4.2、用固定的能量門限判斷靜音與語音有很大的局限性,因?yàn)楦鞣N環(huán)境下的語音能量相差很大,但語音與靜音之間能量大小的相對關(guān)系是不變的,所以定義每幀語音的能量門限TE:
TE=min(E)+0.3×[mean(E)-min(E)]
其中,min(E)是各幀能量的最小值,mean(E)是各幀能量的平均值;
S2.4.3、將每幀語音的能量與能量門限比較,低于能量門限的幀為靜音幀,否則為語音幀,舍棄靜音幀,保留語音幀。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710101549.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于語音識別的聲學(xué)模型訓(xùn)練方法及裝置
- 具有集成聲學(xué)發(fā)生器的聲學(xué)發(fā)射傳感器
- 聲學(xué)發(fā)射傳感器裝置
- 一種基于空間折疊聲學(xué)超材料的單傳感器聲學(xué)相機(jī)
- 聲學(xué)環(huán)境中的聲學(xué)信號的基于上下文的消除和放大
- 聲學(xué)結(jié)構(gòu)和聲學(xué)系統(tǒng)
- 具有外放和私密操作模式的可穿戴個人聲學(xué)設(shè)備
- 聲換能器系統(tǒng)
- 一種聲學(xué)模型的訓(xùn)練方法、裝置以及計算機(jī)可讀存儲介質(zhì)
- 一種基于聲學(xué)暗室的聲學(xué)相位中心校準(zhǔn)方法及系統(tǒng)





