[發(fā)明專利]一種智能語音處理方法有效
| 申請?zhí)枺?/td> | 201410081493.6 | 申請日: | 2014-03-05 |
| 公開(公告)號: | CN103811020A | 公開(公告)日: | 2014-05-21 |
| 發(fā)明(設(shè)計)人: | 王義;魏陽杰;陳瑤;關(guān)楠 | 申請(專利權(quán))人: | 東北大學(xué) |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L15/07 |
| 代理公司: | 沈陽東大知識產(chǎn)權(quán)代理有限公司 21109 | 代理人: | 梁焱 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 智能 語音 處理 方法 | ||
1.一種智能語音處理方法,其特征在于,包括以下步驟:
步驟1、采集樣本語音段構(gòu)建樣本語音庫,對樣本語音進行特征提取,獲得特征參數(shù),并對特征參數(shù)進行訓(xùn)練;
具體過程如下:
步驟1-1、采集樣本語音段,將采集的語音段進行離散化處理,提取語音信號的梅爾頻率倒譜系數(shù)作為語音信號特征參數(shù),并建立高斯混合模型;
模型公式如下:
其中,p(XIG)表示樣本語音特征參數(shù)在模型參數(shù)為G的模型中的概率;
G表示高斯混合模型參數(shù)集,G={pi,μi,∑i},i=1,2,...,I;
I表示高斯混合模型中單一高斯模型個數(shù);
pi表示第i個單一高斯模型的權(quán)重系數(shù),
μi表示第i個單一高斯模型的均值矢量;
∑i表示第i個單一高斯模型的協(xié)方差矩陣;
X表示樣本語音特征參數(shù),X={x1,x2,...,xT},T表示特征向量的個數(shù);
bi(X)表示第i個單一高斯模型的密度函數(shù),bi(X)=N(μi,∑i),N(.)表示標準高斯分布的密度函數(shù);
步驟1-2、利用語音信號特征參數(shù)訓(xùn)練高斯混合模型;
即采用k均值聚類算法對語音信號特征參數(shù)進行聚類,獲得高斯混合模型參數(shù)集初始值G0={pi0,μi0,∑i0},i=1,2,...,I;并根據(jù)獲得的高斯混合模型參數(shù)集初始值,采用最大期望算法對模型進行估計,進而獲得高斯混合模型參數(shù),即完成特征參數(shù)的訓(xùn)練;
步驟2、采用M個麥克風(fēng)組成的麥克風(fēng)陣列采集被測環(huán)境音頻信號,確定該環(huán)境聲音源個數(shù)和每個聲音源波束到達的方向,即聲源到麥克風(fēng)陣列的入射角度;
具體過程如下:
步驟2-1、采用M個麥克風(fēng)組成的麥克風(fēng)陣列采集被測環(huán)境的混合音頻信號,并對采集的混合音頻信號進行離散化處理,獲得每個采樣點的幅值;
步驟2-2、將每個采樣點的幅值進行矩陣化,獲得每個麥克風(fēng)采集到的混合音頻矩陣;上述混合音頻矩陣的列數(shù)為一,行數(shù)為采樣點個數(shù),矩陣中元素為每個采樣點的幅值;
步驟2-3、根據(jù)每個麥克風(fēng)采集到的混合音頻矩陣和麥克風(fēng)個數(shù),獲得被測環(huán)境的混合音頻信號的矢量協(xié)方差矩陣的估計值;
矢量協(xié)方差矩陣的估計值公式如下:
其中,Rxx表示被測環(huán)境的混合音頻信號的矢量協(xié)方差矩陣的估計值;
X(m)表示第m個麥克風(fēng)采集到的混合音頻矩陣;
XH(m)表示第m個麥克風(fēng)采集到的混合音頻矩陣的轉(zhuǎn)置矩陣;
步驟2-4、對矢量協(xié)方差矩陣的估計值進行特征值分解,獲得特征值,并對特征值從大到小進行排序,確定特征值大于閾值的個數(shù),即為聲音源的個數(shù);
步驟2-5、將麥克風(fēng)個數(shù)減去聲音源個數(shù)獲得噪音源個數(shù),進而對應(yīng)獲得噪音矩陣;
步驟2-6、根據(jù)各個麥克風(fēng)與陣列中心之間的距離、混合音頻信號的波長、麥克風(fēng)對于陣列中心的方向角度和聲音源的波束到達方向獲得麥克風(fēng)陣列的導(dǎo)向矢量,再根據(jù)噪音矩陣和麥克風(fēng)陣列的導(dǎo)向矢量獲得混合音頻信號的角度譜函數(shù);
混合音頻信號的角度譜函數(shù)公式如下:
其中,P(θ)表示混合音頻信號的角度譜函數(shù);
α(θ)表示麥克風(fēng)陣列的導(dǎo)向矢量,α(θ)=(α1(θ),...,αm(θ),...,αM(θ)),其中,j表示虛數(shù)單位,k=2π/λ,λ表示混合音頻信號的波長,dm表示第m個麥克風(fēng)與陣列中心的距離,表示第m個麥克風(fēng)對于陣列中心的方向角度;
θ表示聲音源的波束到達方向;
αH(θ)表示麥克風(fēng)陣列的導(dǎo)向矢量的轉(zhuǎn)置矩陣;
Vu表示噪音矩陣;
VHu表示噪音矩陣的轉(zhuǎn)置矩陣;
步驟2-7、根據(jù)混合音頻信號的角度譜函數(shù)的波形,由大到小選取該波形的多個峰值,選擇峰值的個數(shù)即為聲音源的個數(shù);
步驟2-8、確定選取峰值對應(yīng)的角度值,即獲得每個聲音源的波束到達方向;
步驟3、根據(jù)每個聲音源的音頻信號、聲音源與麥克風(fēng)之間的轉(zhuǎn)換關(guān)系,獲得麥克風(fēng)接收到的麥克風(fēng)陣列聲壓、麥克風(fēng)陣列水平方向聲壓梯度和麥克風(fēng)陣列垂直方向的聲壓梯度;
麥克風(fēng)陣列聲壓信號公式如下:
其中,pw(t)表示t時刻麥克風(fēng)陣列聲壓;
N表示聲音源個數(shù);
t表示時間;
sn(t)表示第n個聲音源的音頻信號;
hmn(t)表示第n個聲音源與第m個麥克風(fēng)之間的轉(zhuǎn)換矩陣,hmn(t)=p0(t)αm(θn(t)),p0(t)表示t時刻由聲波造成的麥克風(fēng)陣列中心聲壓;αm(θn(t))表示在t時刻第m個麥克風(fēng)關(guān)于第n個聲音源的導(dǎo)向矢量,其中,θn(t)表示t時刻第n個聲音源的波束到達方向;
麥克風(fēng)陣列水平方向聲壓梯度公式如下:
其中,px(t)表示麥克風(fēng)陣列水平方向聲壓梯度;
麥克風(fēng)陣列垂直方向的聲壓梯度公式如下:
其中,py(t)表示麥克風(fēng)陣列垂直方向的聲壓梯度;
步驟4、采用傅里葉變換將麥克風(fēng)陣列中心聲壓、麥克風(fēng)陣列水平方向聲壓梯度和麥克風(fēng)陣列垂直方向的聲壓梯度從時域轉(zhuǎn)換到頻域;
步驟5、根據(jù)頻域內(nèi)的麥克風(fēng)陣列聲壓、麥克風(fēng)陣列水平方向梯度和麥克風(fēng)陣列垂直方向聲壓梯度,獲得頻率域內(nèi)的聲壓信號的強度矢量公式,進而推導(dǎo)出強度矢量方向;
頻率域內(nèi)的聲壓信號的強度矢量公式為:
其中,I(ω,t)表示頻率域內(nèi)的聲壓信號的強度矢量;
ρ0表示被測環(huán)境空氣密度;
c表示聲速;
Re[.]表示取復(fù)數(shù)實部;
pw*(ω,t)表示頻域內(nèi)的麥克風(fēng)陣列聲壓的共軛矩陣;
px(ω,t)表示頻域內(nèi)的麥克風(fēng)陣列水平方向聲壓梯度;
py(ω,t)表示頻域內(nèi)的麥克風(fēng)陣列垂直方向聲壓梯度;
ux表示橫坐標軸方向單位矢量;
uy表示縱坐標軸方向單位矢量;
強度矢量方向公式如下:
其中,γ(ω,t)表示麥克風(fēng)陣列接收到的混合聲音的聲壓信號的強度矢量方向;
步驟6、對強度矢量方向進行統(tǒng)計獲得其概率密度分布,采用混合馮米修斯分布進行擬合,獲得語音強度矢量方向服從混合馮米修斯分布的模型參數(shù),進而得到每個聲壓信號的強度矢量方向函數(shù);
具體過程如下:
步驟6-1、對強度矢量方向進行統(tǒng)計獲得其概率密度分布,采用混合馮米修斯分布進行擬合,獲得語音的強度矢量方向服從的混合馮米修斯分布的模型參數(shù)集;
所述的混合馮米修斯分布模型公式如下:
其中,表示混合馮米修斯分布概率密度;
αn表示第n個聲音源的聲壓信號的強度矢量方向函數(shù)的權(quán)重;
其中,I0(kn)表示第n個聲音源對應(yīng)的一階修正貝塞爾函數(shù),kn表示第n個聲音源聲壓信號的強度矢量方向服從的單一馮米修斯分布對應(yīng)的濃度參數(shù),即馮米修斯分布的方差的倒數(shù);
混合馮米修斯分布函數(shù)參數(shù)集如下:
Γ={αn,kn},i=1,..,N?????(11)
步驟6-2、初始化模型參數(shù),獲得初始函數(shù)參數(shù)集;
步驟6-3、根據(jù)獲得的初始模型參數(shù),采用最大期望算法估計得到混合馮米修斯分布模型的參數(shù);
步驟6-4、根據(jù)估計得到的混合馮米修斯分布模型參數(shù),求得每個聲壓信號的強度矢量方向函數(shù);
表示混合聲音方向角度;
聲壓信號的強度矢量方向函數(shù)公式如下:
其中,表示第n個聲音源的強度矢量方向函數(shù);
步驟7、根據(jù)得到的每個聲壓信號的強度矢量方向函數(shù)和麥克風(fēng)陣列聲壓,獲得每個聲音源在頻率域信號,并采用傅里葉反變換將該頻域中的每個聲源信號轉(zhuǎn)換為時域內(nèi)的聲源信號;
每個聲音源在頻域中的信號公式如下:
其中,(ω,t)表示混合語音分離后得到的第n個聲源信號的頻率域信號;
將經(jīng)過傅里葉反變換得到時域信號
步驟8、計算每個聲音源信號與樣本語音庫中指定聲音源的匹配概率,選擇概率值最大的聲音源為目標聲音源,保留該聲音源信號,刪除其他非目標聲音源;
每個聲音源信號與樣本語音庫中指定聲音源的匹配概率公式如下:
式中:表示由分離后語音提取的語音特征參數(shù),即提取語音的梅爾頻率倒譜系數(shù)作為語音的特征參數(shù);
表示第n個聲音源信號與樣本語音庫中指定聲音源的匹配概率;
Gc表示用戶指定人的聲音模型參數(shù);
表示分離后語音屬于用戶指定人聲音的概率;
步驟9、對保留的聲音源信號進行放大,即完成在被測環(huán)境中對指定聲音源的放大。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東北大學(xué),未經(jīng)東北大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410081493.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





