[發(fā)明專利]音頻分類方法有效
| 申請?zhí)枺?/td> | 200610127413.1 | 申請日: | 2006-09-13 |
| 公開(公告)號: | CN101145345A | 公開(公告)日: | 2008-03-19 |
| 發(fā)明(設(shè)計)人: | 郭利斌;馬付偉 | 申請(專利權(quán))人: | 華為技術(shù)有限公司 |
| 主分類號: | G10L19/14 | 分類號: | G10L19/14;G10L19/12;G10L19/00 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 | 代理人: | 逯長明 |
| 地址: | 518129廣東省*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音頻 分類 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理領(lǐng)域,尤其涉及一種音頻分類方法。
背景技術(shù)
在擴展寬帶自適應(yīng)多碼率(AMR-WB+,Extended?Adaptive?Multi-Ratc-Wideband)編碼標準中核心編碼有兩種模式即代數(shù)碼本激勵線性預(yù)測(ACELP,Algebraic?Code?Excited?Linear?Prediction)和傳輸變換編碼激勵(TCX,Transform?Coded?Excitation)模式,ACELP模式比較適合語音信號,而TCX模式對音樂信號的編碼效果比較好。在AMR-WB+標準中需要對每一幀信號進行預(yù)先編碼,然后再選擇采用哪種最佳模式進行編碼,但是對每幀信號都要進行預(yù)先編碼處理,這樣會導(dǎo)致計算量非常龐大,故需要對信號進行預(yù)先分類以減少計算量。而語音和音樂是音頻信號中最主要的兩類數(shù)據(jù),因此對語音和音樂信號進行區(qū)分也是提取音頻內(nèi)容語義和結(jié)構(gòu)的重要手段之一。
現(xiàn)有技術(shù)一是采用簡單決策樹分類方法對音頻信號進行多步多層次分類,該分類方法每一步都要根據(jù)一種或者幾種音頻特征及其閾值判斷音頻所屬的類別,其中,一般選擇的特征參數(shù)包含:過零率、基因周期、頻帶中心、子帶能量、頻譜平滑(SF,Spectrum?Flux)、Mel頻率倒譜參數(shù)(MCFF,Mel?FrequencyCepstral?Coefficients)等。該現(xiàn)有技術(shù)對特征參數(shù)的選擇要求比較高,選擇的特征參數(shù)除必須具有較高的有效性、合理性和分類性能較好的特點外,還需要能夠充分表示音頻的重要分類特性,以及對環(huán)境具有較好的魯棒性和一般性,其中,一般性是指特征參數(shù)對各種類型的距離度量方法都能取到比較好的結(jié)果。
現(xiàn)有技術(shù)二是采用分類器對音頻信號進行分類,比較常見的分類器包括隱馬爾可夫模型(HMM,Hidden?Markov?Model)、高斯混合模型(GMM,GaussianMixture?Model)和神經(jīng)網(wǎng)絡(luò)等,例如,HMM實質(zhì)上是一種雙隨機過程的有限狀態(tài)自動機,它具有刻畫信號的時間隨機統(tǒng)計特性能力,并根據(jù)極大似然準則判決音頻的類別。
現(xiàn)有技術(shù)一中每步都需要根據(jù)一種或幾種音頻特征及其閾值判斷音頻所屬的類別,因此該現(xiàn)有技術(shù)在提取性能較好的特征參數(shù)時的運算量比較大,例如,提取MFCC參數(shù)需要進行Mel濾波、離散余弦變換(DCT,Discrete?CosineTransform)等,故而增加了計算量,并且現(xiàn)有技術(shù)一還要受多個特征參數(shù)先后判斷順序的影響。另外,現(xiàn)有技術(shù)二中事先要對分類器進行大量數(shù)據(jù)的訓(xùn)練,整個過程計算量較大,并且不易于硬件實現(xiàn)。因此,現(xiàn)有技術(shù)的缺陷是在音頻信號分類的過程中運算量比較大。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種音頻分類方法,該方法在對音頻信號進行有效分類的同時又大大減少了運算量。
為解決上述技術(shù)問題,本發(fā)明提供了一種音頻分類方法,該方法包括:
對輸入的音頻信號進行預(yù)處理,再計算預(yù)處理過的音頻信號的線性預(yù)測編碼系數(shù);
根據(jù)線性預(yù)測編碼系數(shù)得到信號的頻譜包絡(luò),再由計算得到的導(dǎo)譜對參數(shù)確定幅度差異值;
根據(jù)幅度差異值的統(tǒng)計結(jié)果設(shè)置門限,再根據(jù)門限對音頻信號進行分類。
可選地,采用杜賓算法、格型算法或舒爾算法計算音頻信號的線性預(yù)測編碼系數(shù)。
可選地,上述根據(jù)線性預(yù)測編碼系數(shù)得到信號的頻譜包絡(luò)包括:
根據(jù)線性預(yù)測編碼系數(shù)得到線性預(yù)測誤差濾波器的傳遞函數(shù),并由傳遞函數(shù)計算得到導(dǎo)譜對參數(shù);
根據(jù)導(dǎo)譜對參數(shù)設(shè)置濾波系數(shù),再由濾波系數(shù)得到信號導(dǎo)譜對頻譜包絡(luò)。
可選地,上述根據(jù)線性預(yù)測編碼系數(shù)得到信號的頻譜包絡(luò)包括:
根據(jù)線性預(yù)測編碼系數(shù)計算得到線性預(yù)測誤差濾波器的傳遞函數(shù),再由傳遞函數(shù)得到信號的線性預(yù)測編碼頻譜包絡(luò)。
可選地,上述由計算得到的導(dǎo)譜對參數(shù)確定幅度差異值包括:
確定導(dǎo)譜對參數(shù)在信號頻譜包絡(luò)中對應(yīng)的幅度值,再計算導(dǎo)譜對參數(shù)對應(yīng)幅度值之間的比值就可以得到幅度差異值。
可選地,上述由計算得到的導(dǎo)譜對參數(shù)確定幅度差異值包括:
選取相鄰導(dǎo)譜對參數(shù)之間的幅度值作為頻譜的代表點,再計算代表點對應(yīng)幅度值之間的比值就可以得到幅度差異值。
其中,根據(jù)幅度差異值的統(tǒng)計結(jié)果設(shè)置門限包括:
計算幅度值對應(yīng)頻率點之間的差值,再計算幅度差異值和該差值的比值得到幅度差異值的變化量;
對幅度差異值的變化量進行統(tǒng)計,再根據(jù)統(tǒng)計結(jié)果設(shè)置門限。
可選地,根據(jù)幅度差異值的統(tǒng)計結(jié)果設(shè)置門限包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司,未經(jīng)華為技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200610127413.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種指示遠端缺陷的方法
- 下一篇:渦輪-火箭內(nèi)嵌式發(fā)動機





