[發(fā)明專利]一種基于瓶頸特征的復雜音頻分割聚類方法在審
| 申請?zhí)枺?/td> | 201710101550.6 | 申請日: | 2017-02-24 |
| 公開(公告)號: | CN106952644A | 公開(公告)日: | 2017-07-14 |
| 發(fā)明(設計)人: | 李艷雄;王琴;李先苦;張雪;張聿晗 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G10L15/04 | 分類號: | G10L15/04;G10L15/26;G10L25/24;G10L25/30;G10L25/51;G06F17/30 |
| 代理公司: | 廣州市華學知識產(chǎn)權代理有限公司44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 瓶頸 特征 復雜 音頻 分割 方法 | ||
1.一種基于瓶頸特征的復雜音頻分割聚類方法,其特征在于,包括如下步驟:
S1、帶瓶頸層的深度神經(jīng)網(wǎng)絡構造:讀入訓練數(shù)據(jù)并提取梅爾頻率倒譜系數(shù)特征,再通過無監(jiān)督預訓練和有監(jiān)督精確調(diào)整兩個步驟構造一個帶瓶頸層的深度神經(jīng)網(wǎng)絡特征提取器;
S2、端點檢測:讀入復雜音頻流,通過基于門限判決的靜音檢測方法找出音頻流中所有的靜音段和非靜音信號段,并將各個非靜音信號段拼接成一個長信號段;
S3、瓶頸特征提取:提取S1步驟中的梅爾頻率倒譜系數(shù)特征并輸入深度神經(jīng)網(wǎng)絡特征提取器,從深度神經(jīng)網(wǎng)絡特征提取器的瓶頸層提取瓶頸特征;
S4、音頻分割:采用基于貝葉斯信息準則的方法檢測長信號段中的音頻類型改變點,根據(jù)這些改變點把長信號段分割成若干個音頻段,使得每個音頻段只包含一種音頻類型且相鄰音頻段的音頻類型不同;
S5、音頻聚類:采用譜聚類算法對各音頻段進行聚類,得到音頻類型個數(shù),并將相同音頻類型的音頻段合并在一起。
2.根據(jù)權利要求1所述的一種基于瓶頸特征的復雜音頻分割聚類方法,其特征在于,步驟S1中帶瓶頸層的深度神經(jīng)網(wǎng)絡構造具體包括以下步驟:
S1.1、讀入訓練數(shù)據(jù)并提取梅爾頻率倒譜系數(shù)特征,具體步驟如下:
S1.1.1、預加重:設置數(shù)字濾波器的傳遞函數(shù)為H(z)=1-αz-1,其中α為一個系數(shù)且取值為:0.9≤α≤1,讀入的音頻流通過該數(shù)字濾波器后實現(xiàn)預加重;
S1.1.2、分幀:設置音頻幀的幀長為25毫秒、幀移為10毫秒,幀長和幀移所對應的采樣點個數(shù)分別為N=0.025×fs和S=0.01×fs,其中fs為音頻采樣頻率,將讀入的音頻流切分成音頻幀x′t(n),1≤t≤T,0≤n≤N-1,其中T和N分別表示幀數(shù)和每幀的采樣點數(shù);
S1.1.3、窗函數(shù)ω(n)為漢明窗:
將每幀音頻信號x′t(n)與漢明窗ω(n)相乘得到加窗后的音頻信號xt(n):
xt(n)=ω(n)×x′t(n) n=0,1,...,N-1;t=1,2,...,T,
S1.1.4、提取梅爾頻率倒譜系數(shù)特征:
S1.1.4.1、對第t幀音頻信號xt(n)做離散傅立葉變換得到線性頻譜Xt(k):
S1.1.4.2、將上述線性頻譜Xt(k)通過梅爾頻率濾波器組得到梅爾頻譜,再進行對數(shù)運算得到對數(shù)頻譜St(m),其中梅爾頻率濾波器組為若干個帶通濾波器Hm(k),0≤m<M,M為濾波器的個數(shù),每個濾波器具有三角形濾波特性,其中心頻率為f(m),當m值較小時相鄰f(m)的間隔較小,隨著m的增加相鄰f(m)的間隔逐漸變大,每個帶通濾波器的傳遞函數(shù)為:
其中,0≤m<M,f(m)定義如下:
其中,fl、fh為濾波器的最低頻率和最高頻率,B-1為B的逆函數(shù):
B-1(b)=700(eb/1125-1),
因此由線性頻譜Xt(k)到對數(shù)頻譜St(m)的變換為:
S1.1.4.3、將上述對數(shù)頻譜St(m)經(jīng)過離散余弦變換變換到倒譜域,得到第t幀音頻信號的梅爾頻率倒譜系數(shù)特征,即Ct(p):
S1.1.4.4、對每幀音頻信號重復步驟S1.1.4.1-S1.1.4.3,得到所有音頻幀的梅爾頻率倒譜系數(shù)特征,將它們按幀的順序組合成一個梅爾頻率倒譜系數(shù)特征矩陣;
S1.2、預訓練:采用逐層堆疊受限玻爾茲曼機的方法構造一個深度置信網(wǎng),得到預訓練的網(wǎng)絡參數(shù);
受限玻爾茲曼機采用基于能量的通用分布模型去表示任意概率分布,其能量函數(shù)定義為:
其中v,h分別代表可視層單元和隱含層單元的狀態(tài)矢量,wij表示可視層第i個節(jié)點與隱含層第j個節(jié)點的連接權重,vi和ai分別表示可視層的第i個節(jié)點的狀態(tài)和偏移量,hj和bj分別表示隱含層的第j個節(jié)點的狀態(tài)和偏移量,vis和hid分別表示可視層和隱含層的節(jié)點集合;當所有參數(shù)都確定時,可以得到受限玻爾茲曼機能量函數(shù)關于v和h的聯(lián)合概率分布:
由聯(lián)合分布得到邊緣概率分布:
條件概率為:
高斯-伯努利受限玻爾茲曼機的條件概率分布可以表示為:
其中表示是均值為方差為V的高斯分布,表示輸入為的Sigmoid函數(shù),Sigmoid函數(shù)σ(x)的表達式為σ(x)=1/[1+exp(-x)];
伯努利-伯努利受限玻爾茲曼機的條件概率分布表示為:
在給定訓練集其中ns為訓練樣本數(shù)目,訓練一個受限玻爾茲曼機就是通過調(diào)整參數(shù)θ={W,a,b}來表征給定的訓練樣本,使得在該參數(shù)下由相應受限玻爾茲曼機表示的概率分布盡可能地與訓練數(shù)據(jù)相符,其中W表示權重系數(shù),a表示可視層的偏移量,b表示隱含層的偏移量;
訓練受限玻爾茲曼機的目標就是最大化似然函數(shù):
即:
其中p(d(t))為對樣本d(t)的似然估計;
深度置信網(wǎng)的構造過程具體包括如下步驟:
S1.2.1、選取當前幀的前后5幀作為上下文信息,共計11*13=143維作為第一個受限玻爾茲曼機的可視層輸入節(jié)點數(shù),隱含層節(jié)點數(shù)取固定值1024,將輸入特征的每一維進行倒譜均值方差歸一化,采用對比散度算法訓練一個高斯-伯努利受限玻爾茲曼機,具體過程如下:
S1.2.1.1、將連接權重初始化,值為10-3,偏移量、似然函數(shù)對權重的偏導數(shù)、似然函數(shù)對可視層以及隱含層偏移量的偏導數(shù)均初始化為0,迭代次數(shù)設置為30;
S1.2.1.2、對每一次迭代,取初始值d(0),d(0)={di(0)},i∈vis,為訓練樣本集合D中的任意一個樣本d,執(zhí)行k步Gibbs采樣得到d(k),其中在第s步(s=0,2...,k-1)過程如下:
S1.2.1.2.1、隱含層中的每一個節(jié)點的激活概率可以表示為:
S1.2.1.2.2、產(chǎn)生[0,1]區(qū)間的隨機數(shù)rj,得到隱含層狀態(tài)h(s):
S1.2.1.2.3、根據(jù)隱含層狀態(tài)h(s),得到可視層每一個節(jié)點的激活概率為:
S1.2.1.2.4、產(chǎn)生[0,1]上的隨機數(shù)ri,重構可視層輸入d(s+1):
S1.2.1.3、經(jīng)過k步Gibbs采樣后得到的d(k)近似估計受限玻爾茲曼機參數(shù)的梯度:
其中p(hi=1|d(k))表示在可視層限定為已知的訓練樣本d(k)時隱含層的激活概率,由于該RBM為高斯-伯努利RBM,則
S1.2.1.4、得到似然函數(shù)對權重的偏導數(shù)、似然函數(shù)對可視層以及隱含層偏移量的偏導數(shù)ΔW,Δa和Δb,其中
S1.2.1.5、更新參數(shù):
式中η為權重學習率,設置為0.01;
S1.2.2、保持上一個受限玻爾茲曼機的權重和偏移量不變,將上一個受限玻爾茲曼機的隱含層作為下一個受限玻爾茲曼機的可視層,并保持隱含層節(jié)點數(shù)與可視層節(jié)點數(shù)相同,迭代訓練一個伯努利-伯努利受限玻爾茲曼機,其步驟與S1.2.1類似,只是在執(zhí)行k步Gibbs采樣得到d(k)時,其可視層每一個節(jié)點的激活概率公式變?yōu)椋?/p>
此過程中,權重學習率變?yōu)?.04,迭代次數(shù)降為15次;
S1.2.3、按照S1.2.2中的步驟,重復迭代訓練伯努利-伯努利受限玻爾茲曼機,直到瓶頸層的前一個隱含層;
S1.2.4、將受限玻爾茲曼機的隱含層節(jié)點數(shù)設置為梅爾頻率倒譜系數(shù)特征維數(shù)的2倍,按照S1.2.2中的步驟,迭代訓練伯努利-伯努利受限玻爾茲曼機;
S1.2.5、恢復隱含層節(jié)點數(shù)為1024,按照S1.2.2中的步驟,重復迭代訓練伯努利-伯努利受限玻爾茲曼機,直到最后一個隱含層;
S1.2.6、將所有的受限玻爾茲曼機按照構造時的順序依次堆疊起來,就構成一個帶瓶頸層的深度置信網(wǎng);
S1.3、精確調(diào)整:采用有監(jiān)督訓練方法對預訓練后的深度置信網(wǎng)絡參數(shù)進行精確調(diào)整,具體包括如下步驟:
S1.3.1、在深度置信網(wǎng)的基礎上再增加一個輸出層,并隨機初始化深度置信網(wǎng)最后一層與該增加的輸出層之間的網(wǎng)絡參數(shù),從而構成一個完整的深度神經(jīng)網(wǎng)絡;
S1.3.2、利用反向傳播算法有監(jiān)督地調(diào)整深度神經(jīng)網(wǎng)絡參數(shù),最大迭代次數(shù)設為100,并且當相鄰兩次迭代的損失變化率小于0.01時終止訓練,對于每一次迭代,具體步驟如下:
S1.3.2.1、計算樣本損失函數(shù):
對于單個有標簽的訓練樣本(x,t),其中x為聲學特征,t為樣本標簽,其維度與輸出節(jié)點數(shù)相同,即訓練的音頻類別數(shù),對于音頻類型集合Y={y1,y2,..,yk,..,yK},t={t1,t2,…ti,…,tK},其中ti:
單個樣本損失函數(shù)記為:
其中hW,b(x)為網(wǎng)絡輸出層的激活函數(shù)的輸出值,
給定一個含有n個訓練樣本集{(x(1),t(1)),(x(2),t(2)),...,(x(n),t(n))},則整體損失函數(shù)為:
其中ml為網(wǎng)絡總層數(shù),sl為第l層上的節(jié)點總數(shù),為第l層的節(jié)點i與第l+1層的節(jié)點j之間的連接權重,λ為平衡因子;
S1.3.2.2、根據(jù)S1.3.2.1中的整體樣本損失函數(shù),分別對網(wǎng)絡連接權重和偏移量求導,利用反向傳播算法得到偏導數(shù)值,具體過程如下:
S1.3.2.2.1、首先利用前向傳播算法,分別計算隱含層以及輸出層中所有節(jié)點的激活值
其中σ(·)為選取的Sigmoid激活函數(shù),表示第l層第i個單元的加權和,即:
S1.3.2.2.2、對于輸出層的每個輸出單元i,其殘差為:
其中ti表示輸出層第i個節(jié)點的標簽,為輸出層第i個節(jié)點的激活值,表示輸出層第i個單元的加權和;
根據(jù)反向傳播算法,對于輸出層前的各個隱含層(l=2,3,…,ml-2,ml-1),依次計算其殘差為:
其中表示第l個隱含層的第i個節(jié)點與第l+1個隱含層中第j個節(jié)點的連接權重,為第l+1層的殘差,表示第l層第i個單元的加權和,表達式為:
S1.3.2.2.3、單個樣本最終的偏導數(shù)值為:
其中,δ(l+1)={δi(l+1)},i=1,2,...,sl為第l+1層的殘差向量,a(l)={ai(l)},i=1,2,...,sl為第l層的激活值,T為轉置符號,
對于i=1:n的所有訓練樣本{(x(1),t(1)),(x(2),t(2)),...,(x(n),t(n))},迭代有:
其中ΔW(l)是一個與矩陣W(l)={Wij(l)}維度相同的矩陣,初始化為0,Δb(l)是一個與矩陣b(l)={bi(l)}維度相同的向量,初始值也為0,ΔW(l,i)和Δb(l,i)分別表示對第i個訓練樣本計算出的ΔW(l)和b(l),
S1.3.2.3、更新網(wǎng)絡的連接權重W(l)和偏移量b(l):
其中α為學習速率,設置為0.01,λ為平衡因子,設為0.08。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經(jīng)華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710101550.6/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:木塑裝潢板預切割裝置
- 下一篇:可用于異形石材加工的橋式切石機





