[發(fā)明專利]一種基于分層可靠度變化趨勢的音頻分割方法有效
| 申請?zhí)枺?/td> | 201610872916.5 | 申請日: | 2016-09-30 |
| 公開(公告)號: | CN106297824B | 公開(公告)日: | 2017-08-01 |
| 發(fā)明(設(shè)計)人: | 楊新宇;王銀瑞;丁建行;董怡卓;羅晶;楊澤正;王藝蒙;李雨墨 | 申請(專利權(quán))人: | 西安交通大學 |
| 主分類號: | G10L25/45 | 分類號: | G10L25/45;G10L25/27;G10L21/0272 |
| 代理公司: | 西安通大專利代理有限責任公司61200 | 代理人: | 張弘 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 分層 可靠 變化 趨勢 音頻 分割 方法 | ||
【技術(shù)領(lǐng)域】
本發(fā)明屬于音頻信號處理領(lǐng)域,特別涉及一種基于分層可靠度變化趨勢的音頻分割方法。
【背景技術(shù)】
近年來,在信號處理領(lǐng)域中,對信號的分割處理方面,基于內(nèi)容的音頻信號分割,也稱跳變點檢測,是指利用連續(xù)音頻信號流在發(fā)生轉(zhuǎn)變時聽覺特征之間存在差異的現(xiàn)象將音頻分為若干片段,每個片段在內(nèi)容上具有一致性或在聲學特征上具有相似性。目前基于內(nèi)容的音頻信號分割方法主要分為基于距離、基于模型、基于模型選擇的分割方法3類。其中,基于距離的分割方法是利用相鄰窗的樣本間的距離來度量相鄰音頻段的相似性,它具有計算簡單的特點,但是該方法在選擇候選分割點的時候需要事先設(shè)定門限值,并且當門限值較小時,易檢測出冗余分割點,而當門限值較大時,會導致分割點漏檢,并且對聲學特征的改變比較敏感。基于模型的分割方法不需要對閾值的界定,它是使用訓練好的模型來分割音頻流,但是生成這個模型
需要事先采集樣本,反復訓練,計算代價過高且適應性差。基于模型選擇的方法是一種假設(shè)檢驗的方法,它使用貝葉斯信息準則(Bayesian information criterion,BIC)作為模型的選擇標準,具有無門限、魯棒等優(yōu)點,但是BIC方法需要不斷增加固定窗口長度來計算BIC值,計算量很大,易產(chǎn)生累積誤差,根據(jù)ΔBIC的正負判斷是否為跳變點的硬判決方式具有局限性,并且對于較短的音頻分割效果較差。
【發(fā)明內(nèi)容】
為解決現(xiàn)有分割方法中設(shè)置門限導致分割點冗余或者漏檢,分窗檢測方式導致累計誤差,硬判決方式存在局限性的問題,本發(fā)明提出了一種新的信號音頻分割方法——基于分層可靠度變化趨勢的音頻分割方法。該方法能夠有效減少冗余分割點,提高綜合性能。
為達以上目的,本發(fā)明采用的技術(shù)手段如下:
一種基于分層可靠度變化趨勢的音頻分割方法,包括以下步驟:
1)定長分析窗內(nèi)基于可靠度變化趨勢的分層跳變點檢測;
假設(shè)每次分析窗內(nèi)只有一個跳變點,然后計算窗口內(nèi)各幀的可靠度,根據(jù)可靠度的變化趨勢來檢測分析窗內(nèi)是否有跳變點;
2)基于定長分析窗內(nèi)跳變點檢測的音頻分割;
對整個音頻信號特征序列從起始位置加定長分析窗W0,若沒有檢測到跳變點,窗口向后移動Δl距離,0<Δl<Nmin;繼續(xù)檢測下一區(qū)域距離;若檢測到跳變點,得到一個定長分析窗內(nèi)以顯著度排序的跳變點的序列;將分析窗W0移至具有最大時間上標的跳變點處,繼續(xù)檢測下一區(qū)域;當定長分析窗遍歷整個歌曲音頻流后,將會得到所有的跳變點的集合CP;然后再將跳變點的集合CP重新按照時間排序,完成對整個音頻流的分割。
作為本發(fā)明的進一步改進,可靠度的變化趨勢是指:
在跳變點xk左側(cè),隨著音頻幀靠近跳變點xk時,可靠度值呈上升趨勢,在跳變點xk右側(cè),隨著音頻幀遠離跳變點xk時,可靠度值呈下降趨勢,而在跳變點xk處,RE(xk)將取得極大值。
作為本發(fā)明的進一步改進,檢測分析窗內(nèi)是否有跳變點具體步驟為:
若未檢測到跳變點,表明該窗口中不含跳變點;若檢測到跳變點SP1,則以SP1為界,將W0切分為兩個子窗W1與W2,然后再按照上述流程檢測子窗W1與W2中是否包含跳變點,若未檢測到跳變點,則不再切分窗口,認為其中不包含跳變點;若檢測到跳變點,則以跳變點為界將子窗一分為二繼續(xù)檢測下一層子窗,直至子窗長度小于最小窗口長度Nmin或子窗內(nèi)不包含跳變點。
作為本發(fā)明的進一步改進,步驟1)具體為:
(i)按幀提取音頻特征,確定最大窗口W0的長度為Nmax、最小窗口Wm的長度為Nmin;
(ii)計算分析窗內(nèi)各幀的可靠度,選取可靠度最大的第k幀作為預選擇跳變點,分析窗內(nèi)始末段NM幀的可靠度不計算,0<NM<Nmin;根據(jù)預選擇跳變點左右兩側(cè)可靠度的變化趨勢來確定其是否為真實跳變點,即:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安交通大學,未經(jīng)西安交通大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610872916.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





