[發明專利]一種實現數字音頻自動分類的方法有效
| 申請號: | 201410120865.1 | 申請日: | 2014-03-27 |
| 公開(公告)號: | CN103854646B | 公開(公告)日: | 2018-01-30 |
| 發明(設計)人: | 陳科;李世旭 | 申請(專利權)人: | 成都康賽信息技術有限公司 |
| 主分類號: | G10L15/08 | 分類號: | G10L15/08 |
| 代理公司: | 成都宏順專利代理事務所(普通合伙)51227 | 代理人: | 周永宏 |
| 地址: | 610054 四川省成都市一*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實現 數字音頻 自動 分類 方法 | ||
技術領域
本發明屬于音頻檢索技術領域,具體涉及一種實現數字音頻自動分類的方法的設計。
背景技術
如今網絡媒體中存有海量的數字音頻,從其中找出有相同或相似特征的文件是一件困難的事,目前普遍的做法是根據文件名稱、歌手或學說人、標簽等文本信息來辨別,而這樣做有很大的主觀性,從而使得到的結果并不準確。基于內容的音頻特征抽取則能克服這些缺點,由于音頻數據樣本的數據量過大,并不適合直接用于自動分類,因此必須從這個數值序列中提取相應特征,常用的音頻特征大致可以分成三類:時域特征、頻域特征和聲學感知特征。
時域特征僅僅利用音頻信號在時域上的信息,在提取時不需要特別的轉換,處理時間短。常見的時域特征包括:短時過零率、平均能量、自相關函數、短時平均幅度差函數等。頻域特征需要將時域波形信號轉換到頻譜或倒譜域,然后進行計算。常見的頻域特征有:頻譜質心、帶寬、頻率等。聲學感知特征是一些聲學上定義的概念,考慮了人的聽覺感知特點,但通常計算比較復雜。所以在現有技術中,采用不同上述三種特征實現的音頻分類的方法都存在某一方面取得較好的效果,而在另一方面表現欠佳,缺少一種能夠整合上述三種特征各自優點的音頻分類方法。
發明內容
本發明的目的是為了解決現有技術中音頻分類方法存在的缺點而提供一種實現數字音頻自動分類的方法。
本發明的技術方案是:一種實現數字音頻自動分類的方法,具體包括:
S1、對音頻信號進行預處理,所述預處理包括:預加重處理、分幀處理以及加窗處理;
S2、提取音頻特征,所述音頻特征包括:頻譜質心、擴頻、頻譜平坦度、頻譜變遷參數、短時能量、基音頻率以及Mel頻率倒譜系數(MFCC)和MFCC一階差分;
S3、根據音頻特征進行檢索分類,找到相似音頻。
進一步的,所述步驟S1具體為:
S11、預加重處理:用提升高頻特性的預加重數字濾波器來實現;
S12、分幀處理:對音頻信號進行分幀處理;
S13、加窗處理:設音頻幀信號為x(n),窗函數為w(n),加窗后的信號為:y(n)=x(n)*w(n);其中,0£n<N,N為每幀的取樣數。
更進一步的,所述步驟S1中的預加重處理中的預加重數字濾波器為6dB/倍頻程,預加重系數取0.97,所述分幀處理中的幀長取25ms,幀移取12ms,所述加窗處理中采用漢明窗進行加窗處理。
進一步的,所述步驟S2具體為:
S21、計算頻譜質心,其公式具體為:其中k是所述步驟S11中數字濾波器的通道序列,P(k)是第k子帶頻率的加權平均值,中心頻率是f(k),B代表數字慮波器的總通道數;
S22、計算擴頻,其擴頻計算公式為:其中n表示音頻信號的幀數,f(n)表示第n幀的平均頻率,C表示所述步驟S21中的頻譜質心,P'x(n)表示第n幀音頻的平均頻率為x的概率;
S23、計算頻譜平坦度,所述頻譜平坦度用于描述功率譜平坦的屬性,是邊界函數的范圍,其公式為:所述N為待測音頻的N個Bark頻率子帶,c(i)是指第i個子帶內音頻的平均幅度;
S24、計算頻譜變遷參數Sf,所述頻譜變遷參數為相鄰兩幀頻譜之間的距離,其計算公式為:其中,Ai(n)、Ai-1(n)分別為當前幀和前一幀的幅度譜,N表示幀長;
S25、計算短時能量,所述短時能量為一段音頻信號中所有采樣點所聚集的能量總和,其中第n幀的能量定義為:所述N為幀長,即幀中采樣點總數,x(i)是第n幀內第i個采樣點的值,w(n-i)是窗口函數,長度為N;
S26、計算基音頻率,所述基音頻率采用中心削波短時自相關函數波峰檢測算法求單幀信號的基音頻率,并取它們的均值來代表該幀信號的基音頻率特征;
S27、計算Mel頻率倒譜系數(MFCC),所述Mel頻率和普通音頻頻率映射函數為:其中,f表示普通音頻頻率;
S28、計算MFCC的一階函數:
S281、對加窗處理后的音頻數據進行離散傅立葉變換,得到線性頻譜X(k),其公式為:0£k<N,其中,x(n)為輸入的音頻信號,N表示傅立葉變換點數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都康賽信息技術有限公司,未經成都康賽信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410120865.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:高速列車用隔音吸聲材料及制造方法
- 下一篇:一種真空磁懸浮車道站臺專用隔離倉





