[發明專利]一種基于聲紋技術的音頻信號實時追蹤比對方法有效
| 申請號: | 202110704405.3 | 申請日: | 2021-06-24 |
| 公開(公告)號: | CN113409817B | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 許國法 | 申請(專利權)人: | 浙江松會科技有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/24;H04H60/29 |
| 代理公司: | 杭州浙科專利事務所(普通合伙) 33213 | 代理人: | 孫孟輝 |
| 地址: | 311301 浙江省杭州市臨安*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 聲紋 技術 音頻 信號 實時 追蹤 方法 | ||
1.一種基于聲紋技術的音頻信號實時追蹤比對方法,其特征在于,包括如下步驟:
P1:計算聲紋,定義播出音頻為源音頻,空收音頻為目標音頻,對播出音頻和空收音頻進行預處理,分別獲取源聲紋和目標聲紋向量,并置入相應矩陣緩存;
P2:計算向量距離,以目標聲紋為軸,按最小步進以秒為單位分別計算源聲紋與目標聲紋的歐式距離,計算得到歐式距離矩陣Dxs;
P3:初步判定延時時間,通過歐式距離矩陣Dxs,判斷上次延遲時間tlast、Dxs最小值對應延遲時間tmin、Dxs行算數平均數最小值對應延遲時間tline;
P4:細化判定延遲時間,分別計算tlast、tmin 、tline對應相似度,通過相似度進行延遲時間二次判定;
P5:躍變判定,對于延遲時間相似與不相似狀態躍變,引入延遲處理機制;若發生相似到不相似狀態躍變,或者不相似到相似狀態躍變,則定義sim_min下限閾值和sim_max上限閾值,分別對應兩個狀態的躍變,如果n次均低于sim_min下限閾值或高于sim_max上限閾值,表示狀態躍變成功;
P6:對齊音頻,通過輸出延遲時間對齊源音頻與目標音頻;
P7:計算源音頻與目標音頻相應通道在線指標;
P8:重復P1- P7,循環動態跟蹤源音頻與目標音頻。
2.根據權利要求1所述的基于聲紋技術的音頻信號實時追蹤比對方法,其特征在于,所述預處理包括如下步驟:
S1:預加重,補償高頻部分;
S2:分幀,多個采樣點劃分為幀;
S3:加窗,使用漢明窗用于平滑信號,減弱FFT以后旁瓣大小以及頻譜泄露;
S4:快速傅里葉變換,將時域特征轉換為頻域上分布;
S5:幅度譜平方,轉換為功率譜;
S6:梅爾帶通濾波器濾波,對頻譜進行平滑化,消除諧波,突顯共振峰;
S7:對數功率,加上一幀的對數能量;
S8:離散余弦變換,把梅爾濾波器的對數能量進行離散余弦變換,取低頻部分,得出L階的MFCC系數;
S9:動態差分提取,語音的動態特性用靜態特征的差分譜來描述;
S10:計算聲紋,MFCC系數與一階差分、二階差分疊加為最終聲紋。
3.根據權利要求2所述的基于聲紋技術的音頻信號實時追蹤比對方法,其特征在于,所述P1是對比方法的起點,對源音頻進行預處理,音頻采樣頻率為16Khz,hop=500,1秒MFCC特征信息輸出{13*32}矩陣,MFCC特征信息、Deltas一階微分系數、Delta-Deltas二階加速度系數三組向量疊加{39*32},并以20s為分析時隙,輸出{39*640}矩陣;同樣對目標音頻進行預處理,獲取到39維目標聲紋特征向量,輸出{39*640}矩陣。
4.根據權利要求1所述的基于聲紋技術的音頻信號實時追蹤比對方法,其特征在于,所述P2的歐式距離矩陣Dxs,從目的音頻中間n/2秒處,逐秒順序計算與源音頻的歐式距離,計算秒數n/2;設置目標音頻步進為1,對應音頻偏移Rate/hop,重復上述計算,得到下一組;直至目標音頻步進到矩陣最后一秒為止,最終生成對角線矩陣Dxs。
5.根據權利要求1所述的基于聲紋技術的音頻信號實時追蹤比對方法,其特征在于,所述P3初步判定延時時間,對上次延遲時間tlast、Dxs最小值對應延遲時間tmin、Dxs行算數平均數最小值對應延遲時間tline判定,如果三者對應延時一致,則無需進行二次細化判定,如計算延時超出閾值,則判定為不相似音頻。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江松會科技有限公司,未經浙江松會科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110704405.3/1.html,轉載請聲明來源鉆瓜專利網。





