[發明專利]一種用于實時監控的音頻聚類方法有效
| 申請號: | 201811484229.1 | 申請日: | 2018-12-06 |
| 公開(公告)號: | CN109783683B | 公開(公告)日: | 2022-11-18 |
| 發明(設計)人: | 賀前華;吳志敏 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F16/65 | 分類號: | G06F16/65;G06K9/62 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 何淑珍;黃海波 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 實時 監控 音頻 方法 | ||
1.一種用于實時監控的音頻聚類方法,包括以下步驟:
(1)音頻數據預處理分段:利用基頻值特點把基頻值不同的時間上相鄰的兩個音頻段分離開;
(2)基于特征點對齊的分段快速計算音頻距離:對計算的音頻樣本的N階特征點進行基于相似性度量的對齊后分段計算樣本距離,快速得到兩段音頻的距離;
(3)利用連通距離提高聚類的類內純凈度:對于每段音頻,通過連通距離設定距離閾值來剔除噪點以提高類內純凈度,完成聚類。
2.根據權利要求1所述的用于實時監控的音頻聚類方法,其特征在于,所述步驟(1)中,判定一個音頻段是否包含兩個獨立音頻段的步驟具體包括:
首先計算該段音頻信號中當前(i,i+N)幀的基頻值和(i-N,i)幀基頻值的差值Dvalue:
其中,PFk是第k幀的基頻,是(i,i+N)幀的基頻值之和,是(i-N,i)幀的基頻值之和;
通過判斷差值Dvalue的絕對值與音頻段的基頻均值的關系來判定第i幀之前的音頻段和第i幀之后的音頻段是否是互相獨立的兩個事件,所述差值Dvalue和音頻段的基頻均值的關系式為:
其中,是整個音頻段的基頻均值,當差值Dvalue和音頻段的基頻均值的關系滿足所述關系式時,則把第i幀之前的音頻段和第i幀之后的音頻段劃分成兩個互相獨立可分的音頻段。
3.根據權利要求1所述的用于實時監控的音頻聚類方法,其特征在于,所述的步驟(2)具體包括:
計算音頻樣本的N階特征點,組成模板音頻的對齊特征點集合與配對音頻的若干組候選特征點集合;用對齊特征點集合和若干組候選特征點集合依次對齊,找出相似性度量最優的位置作為對齊位置;以特征點集合為基準分段計算樣本距離,快速得到兩段音頻的距離。
4.根據權利要求1所述的用于實時監控的音頻聚類方法,其特征在于,所述步驟(2)中,所述的N階特征點的定義如下:一階特征點的定義是基頻值大于其左、右兩個方向上的最鄰近一個音頻幀基頻值的音頻幀,二階特征點的定義是基頻值大于其左、右兩個方向上的最鄰近兩個音頻幀的基頻值沿箭頭方向呈現遞減特征的音頻幀,三階以上的特征點定義以此類推,計算出模板音頻的所有階數的特征點。
5.根據權利要求3所述的用于實時監控的音頻聚類方法,其特征在于,所述步驟(2)中,所述的模板音頻中的對齊特征點集合由若干個各階特征點組成,所述的若干個各階特征點主要包括三類,具體包括:第一類對齊特征點No1是模板音頻中階數最高且基頻值最高的一點作為N階對齊特征點,第二類對齊特征點No2是從第一類對齊特征點往兩邊找階數最接近并小于No1且基頻值最高的一點,第三類對齊特征點No3是從第二類對齊特征點往兩邊找階數最接近并小于No2且基頻值最高的一點;所述三類特征點構成一組對齊特征點集合。
6.根據權利要求5所述的用于實時監控的音頻聚類方法,其特征在于,所述步驟(2)中,所述配對音頻的若干組候選特征點集合的尋找步驟包括:在配對音頻中,找出階數等于或者小于第一類對齊特征點No1的特征點NR1,設有M個;從該特征點NR1出發,往兩邊找距離特征點NR1最近的一個階數等于或者小于第二類對齊特征點No2且基頻值最高的特征點NR2;接著從特征點NR2兩邊找階數等于或者小于第三類對齊特征點No3且基頻值最高的特征點NR3,得到M組的配對音頻的候選特征點集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811484229.1/1.html,轉載請聲明來源鉆瓜專利網。





