[發明專利]一種實時的音頻信號分類方法及設備無效
| 申請號: | 201110430964.6 | 申請日: | 2011-12-21 |
| 公開(公告)號: | CN102543079A | 公開(公告)日: | 2012-07-04 |
| 發明(設計)人: | 林志斌;孔慶勝 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G10L15/08 | 分類號: | G10L15/08;G10L15/02 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210093*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實時 音頻 信號 分類 方法 設備 | ||
一、技術領域
本發明涉及音頻編解碼與傳輸領域,尤其涉及一種實時的音頻信號分類方法及設備。
二、背景技術
在音頻信號進行編碼、傳輸或其他處理前對信號進行分類,可以有效地提高編碼和傳輸的效率,由于多媒體音頻信號的傳輸是在基于實時傳輸的模式框架下,對音頻信號的實時分類是一個重要的研究內容。
國內外對音頻信號分類的研究大多集中在長時間的分類上,如1秒或10秒時長的低能量率分類和1秒或10秒時長的短時能量進行分類等。在分類器的設計上普遍采用基于統計的分類方法,如支持向量機的分類器,神經網絡分類器等。由于處理時間比較長,這些方法在音頻實時分類上實用性不高。
目前對音頻分類的算法基本是在時域或頻域中實現的,而現在流行的編碼方式,如MP3,AAC等都利用MDCT變換處理,為了減少額外運算操作,直接提取MDCT域和時域上的特征進行分析,能有效地提高特征提取效率。配合適當的分類規則可以設計出快速音頻信號實時分類的分類設備。
三、發明內容
1、發明目的:本發明的目的是提供一種實時的音頻信號分類方法及設備,進行快速的實時分類,減少額外運算,提高音頻信號實時分類的精確度,發揮音頻信號分類對音頻編碼與音頻傳輸重要作用。
2、技術方案:為實現上述發明目的,本發明公開一種實時的音頻信號分類方法,包括:
對輸入的音頻信號進行分幀及高通濾波處理后,進行當前幀靜音檢測,計算MDCT變換,在時域和MDCT域提取音頻特征,當所述當前幀處于分類的收斂時間幀I內采用單個音頻特征分類,若所述當前幀處于分類的收斂時間幀I之后則采用粗細分級規則的分類方法進行分類,且所述當前幀經過粗細分級規則分類后,根據所述當前幀之前的信號幀分類類型歷史狀態更新所述當前幀分類類別。
進一步地,上述方法中,采用短時過零率進行當前幀靜音檢測,所述當前幀短時過零率大于所述第一設定值,設置當前幀為非靜音幀。
通過對處理后的每幀音頻信號進行MDCT變換,在時域與MDCT域中提取一系列的音頻特征,音頻特征包括短時過零率、MDCT頻譜諧波結構穩定性、MDCT頻譜子帶能量變化統計值、MDCT頻譜質心變化值、MDCT頻譜子帶能量和MDCT頻譜系數前四個參數絕對值之和。
進一步地所述方法中,當所述當前幀處于分類的收斂時間幀I內時采用單一特征分類,單一特征采用MDCT頻譜子帶能量,所述當前幀單一特征第一能量子帶大于所述第二設定值,設置當前幀為語音幀。
所述當前幀處于分類的收斂時間幀I后時采用粗細分級規則進行多級特征分類,多級特征采用短時過零率、MDCT頻譜諧波結構穩定性、MDCT頻譜子帶能量變化統計值、MDCT頻譜質心變化值、MDCT頻譜子帶能量和MDCT頻譜系數前四個參數絕對值之和。
所述當前幀進行粗分類,粗分類特征采用MDCT頻譜子帶能量的第一子帶進行判別,大于所述第二設定值,設置當前幀為類語音幀,反之設置所述當前幀為類音樂幀。
進一步地,所述方法中,對粗分類后的信號幀按照多特征結合的方法進行精細分類,精細分類每級判斷的音頻特征分別與相應設定值比較判斷信號類型,分級分類過程不改變分級特征判斷順序。
所述通過存儲分類結果的歷史狀態,結合當前幀的分類結果,利用出現頻率最高的分類類型作為當前幀的分類結果,若當前幀為靜音幀或者歷史分類原始分類結果中僅有兩幀為非靜音幀則維持原分類結果。
所述的第一設定值和第二設置是給定的閾值,相應設定值是一系列給定的閾值。
本發明還提供一種實時的音頻信號分類設備,包括彼此連接的預處理模塊、特征提取模塊、粗細分級規則分類模塊和分類結果修正模塊,其中:
所述預處理模塊,它包括對音頻信號進行預處理與靜音檢測;
所述特征提取模塊,它包括對處理后的音頻信號在時域與MDCT域中進行實時特征提取;
所述粗細分級規則分類模塊,它包括將獲取的音頻特征按照一定規則放置,按照基于粗細分級規則的方法進行分類;
所述分類結果修正模塊,它包括對所述的原分類結果進行修正,最后輸出精確地音頻信號分類結果。
進一步地,上述設備中,所述預處理模塊采用短時過零率進行當前幀靜音檢測,所述當前幀短時過零率大于所述第一設定值,設置當前幀為非靜音幀。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110430964.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種化妝品添加劑及其制備方法與應用
- 下一篇:空氣比熱容比的快速測量方法





