[發(fā)明專利]一種音頻指紋匹配方法以及音頻指紋匹配裝置有效
| 申請?zhí)枺?/td> | 201910171672.1 | 申請日: | 2019-03-07 |
| 公開(公告)號: | CN109829515B | 公開(公告)日: | 2020-08-28 |
| 發(fā)明(設計)人: | 姜衛(wèi)平;張家斌;縱瑞芳;趙敏 | 申請(專利權)人: | 北京市博匯科技股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/683 |
| 代理公司: | 北京弘權知識產(chǎn)權代理事務所(普通合伙) 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 100094 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 音頻 指紋 匹配 方法 以及 裝置 | ||
本申請?zhí)峁┮环N音頻指紋匹配方法以及音頻指紋匹配裝置,該方法包括:獲取第一音頻段包含的至少兩個音頻幀中每個音頻幀的頻譜幅值;生成至少兩個音頻幀的平均譜能量峰值位置點圖像;利用分類器對平均譜能量峰值位置點圖像中的平均譜能量峰值位置點進行量化,并根據(jù)量化結果獲取至少兩個音頻幀中每個音頻幀的音頻指紋;獲取第一音頻段中至少兩個音頻幀與第二音頻段中至少兩個音頻幀對應音頻幀的指紋距離的平均值;在平均值小于或者等于第一預設閾值的情況下,確定第一音頻段與第二音頻段相匹配;在平均值大于第一預設閾值的情況下,確定第一音頻段與第二音頻段不匹配。每幀音頻指紋的信息長度較小,需要耗費的資源較少。
技術領域
本申請涉及音頻技術領域,尤其涉及一種音頻指紋匹配方法以及音頻指紋匹配裝置。
背景技術
音頻指紋是代表一段音頻重要聲學特征的基于內(nèi)容的數(shù)字簽名,可用于音頻比對、音頻庫檢索或者音頻內(nèi)容監(jiān)測等應用場景。音頻指紋是基于人耳的聽覺感知特征建立的,對于經(jīng)過處理,例如編碼壓縮、濾波、均衡或者變調(diào)等導致部分失真的音頻,需要有較好的魯棒性。
音頻指紋基于的聲學特征主要分為2類:物理特征和感知特征。物理特征,是直接從音頻數(shù)據(jù)中提取的簡單的參數(shù)表示,例如短時能量、過零率、譜峰和譜密度等;感知特征,是結合人耳聽覺,從音頻數(shù)據(jù)中加工提煉的參數(shù)表示,例如音高、音調(diào)、旋律和節(jié)奏等。
現(xiàn)有技術中,每幀音頻指紋的信息長度在100~300bit左右,導致在存儲和音頻指紋匹配時要耗費較大的資源。
發(fā)明內(nèi)容
本申請?zhí)峁┝艘环N音頻指紋匹配方法以及音頻指紋匹配裝置,以解決現(xiàn)有技術中,每幀音頻指紋的信息長度較大,導致需要耗費較多資源的問題。
一方面,本申請?zhí)峁┮环N音頻指紋匹配方法,包括:
獲取第一音頻段包含的至少兩個音頻幀中每個音頻幀的頻譜幅值;
根據(jù)所述第一音頻段包含的至少兩個音頻幀中每個音頻幀的頻譜幅值,確定每個音頻幀在至少兩個音調(diào)頻率子帶中每個音調(diào)頻率子帶上的平均譜能量;
根據(jù)每個音頻幀在至少兩個音調(diào)頻率子帶中每個音調(diào)頻率子帶上的平均譜能量,確定每個音頻幀的平均譜能量峰值在所述至少兩個音調(diào)頻率子帶中所屬的目標音調(diào)頻率子帶;
根據(jù)所述每個音頻幀的平均譜能量峰值在所述至少兩個音調(diào)頻率子帶中所屬的目標音調(diào)頻率子帶,生成所述至少兩個音頻幀的平均譜能量峰值位置點圖像;
利用分類器對所述平均譜能量峰值位置點圖像中的平均譜能量峰值位置點進行量化,并根據(jù)量化結果獲取所述至少兩個音頻幀中每個音頻幀的音頻指紋;
確定第二音頻段包含的至少兩個音頻幀中每個音頻幀的音頻指紋;
根據(jù)所述第一音頻段包含的至少兩個音頻幀中每個音頻幀的音頻指紋和幀時間以及所述第二音頻段包含的至少兩個音頻幀中每個音頻幀的音頻指紋和幀時間,獲取所述第一音頻段中至少兩個音頻幀與所述第二音頻段中至少兩個音頻幀對應音頻幀的指紋距離的平均值;
在所述平均值小于或者等于第一預設閾值的情況下,確定所述第一音頻段與所述第二音頻段相匹配;
在所述平均值大于所述第一預設閾值的情況下,確定所述第一音頻段與所述第二音頻段不匹配。
可選的,所述根據(jù)所述第一音頻段包含的至少兩個音頻幀中每個音頻幀的音頻指紋和幀時間以及所述第二音頻段包含的至少兩個音頻幀中每個音頻幀的音頻指紋和幀時間,獲取所述第一音頻段中至少兩個音頻幀與所述第二音頻段中至少兩個音頻幀對應音頻幀的指紋距離的平均值,包括:
根據(jù)所述第一音頻段包含的至少兩個音頻幀中每個音頻幀的音頻指紋和幀時間以及所述第二音頻段包含的至少兩個音頻幀中每個音頻幀的音頻指紋和幀時間,確定對齊偏移量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京市博匯科技股份有限公司,未經(jīng)北京市博匯科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910171672.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





