[發(fā)明專利]一種基于對(duì)數(shù)譜平滑濾波的特征提取方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011095527.9 | 申請(qǐng)日: | 2020-10-14 |
| 公開(公告)號(hào): | CN112233658A | 公開(公告)日: | 2021-01-15 |
| 發(fā)明(設(shè)計(jì))人: | 呂勇 | 申請(qǐng)(專利權(quán))人: | 河海大學(xué) |
| 主分類號(hào): | G10L15/02 | 分類號(hào): | G10L15/02;G10L21/0224;G10L21/0232 |
| 代理公司: | 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 王恒靜 |
| 地址: | 210024 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 對(duì)數(shù) 平滑 濾波 特征 提取 方法 | ||
本發(fā)明公開一種基于對(duì)數(shù)譜平滑濾波的特征提取方法,將語音信號(hào)的對(duì)數(shù)譜看作時(shí)域信號(hào),對(duì)其進(jìn)行低通平滑濾波,保留低頻成分,濾除高頻成分,減小激勵(lì)信號(hào)對(duì)語音識(shí)別的影響。首先,對(duì)輸入語音進(jìn)行聲學(xué)預(yù)處理和快速傅里葉變換,得到每一幀語音的線性譜;再對(duì)線性譜取對(duì)數(shù),平滑濾波和取指數(shù),得到平滑后的線性譜;最后,對(duì)平滑后的線性譜進(jìn)行Mel濾波,取對(duì)數(shù),離散余弦變換和時(shí)域差分,得到輸入語音的特征參數(shù)。本發(fā)明可以減小說話人的改變對(duì)語音識(shí)別系統(tǒng)的影響,提高語音識(shí)別系統(tǒng)對(duì)說話人的魯棒性。
技術(shù)領(lǐng)域
本發(fā)明屬于語音識(shí)別技術(shù)領(lǐng)域,具體涉及到一種基于對(duì)數(shù)譜平滑濾波的特征提取方法。
背景技術(shù)
語音可以看作是由聲門激勵(lì)信號(hào)e(n)與聲道濾波器單位脈沖響應(yīng)h(n)卷積生成的:
s(n)=e(n)*h(n) (1)
其中,s(n)表示卷積產(chǎn)生的語音信號(hào)。在頻域,它們的關(guān)系可以表示為:
S(ω)=E(ω)*H(ω) (2)
其中,S(ω)、E(ω)和H(ω)分別表示s(n)、e(n)和h(n)的短時(shí)譜。E(ω)具有明顯的周期性,不同說話人的E(ω)是不一樣的,它代表說話人的個(gè)性特征;H(ω)的結(jié)構(gòu)比較穩(wěn)定,不同說話人的H(ω)具有一定的相似性,它代表語音的特征。顯然,在語音識(shí)別的特征提取中,應(yīng)該盡可能減小E(ω)的影響,突出H(ω)的作用,即盡量減小語音個(gè)性的影響,突出語音的共性特征。
目前的語音識(shí)別系統(tǒng)多數(shù)以美爾頻率倒譜系數(shù)(MFCC:Mel FrequencyCepstralCoefficients)為語音的特征參數(shù)。由于在特征提取中采用了倒譜濾波技術(shù),因而MFCC對(duì)語音中的激勵(lì)信號(hào)成分有一定的抑制作用。但是,研究標(biāo)明,對(duì)部分基音頻率較高的人群,激勵(lì)信號(hào)對(duì)MFCC的影響仍然較大,這會(huì)影響語音識(shí)別系統(tǒng)的性能。
發(fā)明內(nèi)容
發(fā)明目的:針對(duì)現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供一種基于對(duì)數(shù)譜平滑濾波的特征提取方法,解決了語音特征魯棒性差的問題。
技術(shù)方案:本發(fā)明提供基于對(duì)數(shù)譜平滑濾波的特征提取方法,包括以下步驟:
(1)對(duì)輸入語音進(jìn)行聲學(xué)預(yù)處理;
(2)對(duì)每一幀語音進(jìn)行FFT運(yùn)算,并取頻譜幅度,得到每幀信號(hào)的線性譜;
(3)對(duì)每幀信號(hào)的線性譜取對(duì)數(shù),得到每幀信號(hào)的對(duì)數(shù)譜;
(4)對(duì)每幀信號(hào)的對(duì)數(shù)譜進(jìn)行低通平滑濾波,得到每幀信號(hào)平滑后的對(duì)數(shù)譜;
(5)對(duì)每幀信號(hào)平滑后的對(duì)數(shù)譜取指數(shù),得到每幀信號(hào)平滑后的線性譜;
(6)對(duì)每幀信號(hào)平滑后的線性譜進(jìn)行Mel濾波,并取對(duì)數(shù),得到每幀信號(hào)的Mel對(duì)數(shù)譜;
(7)對(duì)每幀信號(hào)的Mel對(duì)數(shù)譜進(jìn)行離散余弦變換,并作一階差分和二階差分,得到輸入語音的特征參數(shù)。
進(jìn)一步的,包括:
所述步驟(1)包括對(duì)輸入語音加窗,分幀,將其分解為幀信號(hào),窗函數(shù)采用海明窗,幀移長度為幀長的一半。
進(jìn)一步的,包括:
所述步驟(2)包括對(duì)預(yù)處理后的每一幀信號(hào)x(n),用快速傅里葉變換進(jìn)行短時(shí)譜估計(jì):
其中,N表示幀長,X(k)是x(n)的短時(shí)譜;
然后對(duì)短時(shí)譜X(k)取模,得到每幀信號(hào)的線性譜|X(k)|:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河海大學(xué),未經(jīng)河海大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011095527.9/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





