[發(fā)明專利]基于音頻能量特性的音頻指紋識別有效
| 申請?zhí)枺?/td> | 201780034005.8 | 申請日: | 2017-04-07 |
| 公開(公告)號: | CN109644283B | 公開(公告)日: | 2021-07-30 |
| 發(fā)明(設計)人: | 帕特里克·格林 | 申請(專利權)人: | 源數(shù)碼有限公司 |
| 主分類號: | H04N21/233 | 分類號: | H04N21/233;H04N21/242;H04N21/422;H04N21/43;H04N21/439;H04N21/4722;H04N21/858 |
| 代理公司: | 北京柏杉松知識產(chǎn)權代理事務所(普通合伙) 11413 | 代理人: | 謝攀;劉繼富 |
| 地址: | 美國賓夕*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 音頻 能量 特性 指紋識別 | ||
1.一種音頻指紋識別的方法,包括:
獲取一段音頻的音頻樣本,所述音頻樣本中的每一個對應一個特定時間;
生成所述音頻樣本的頻率表示,所述頻率表示被劃分為頻帶;
識別所述頻帶中的能量區(qū)域,所述能量區(qū)域中的每一個是能量增加區(qū)域和能量減少區(qū)域中的一個,能量增加區(qū)域定義為所述頻帶中的一個頻帶內(nèi)的時間區(qū)域,其中在該時間區(qū)域期間音頻能量從該時間區(qū)域的開始時間到結束時間增加,能量減少區(qū)域定義為所述頻帶中的一個頻帶內(nèi)的時間區(qū)域,其中在該時間區(qū)域期間音頻能量從該時間區(qū)域的開始時間到結束時間減少;
分析所識別的能量區(qū)域出現(xiàn)在時間窗口內(nèi)的部分,以生成該段音頻的特征的散列,特征的每個散列對應于所識別的能量區(qū)域出現(xiàn)在相應時間窗口中的部分,每個特征被定義為對信息編碼的數(shù)值,所述信息表示:出現(xiàn)在所述相應時間窗口中的能量區(qū)域的頻帶、出現(xiàn)在所述相應時間窗口中的所述能量區(qū)域是否為能量增加區(qū)域或者出現(xiàn)在所述相應時間窗口中的所述能量區(qū)域是否為能量減少區(qū)域、出現(xiàn)在所述相應時間窗口中的所述能量區(qū)域的位置,出現(xiàn)在所述相應時間窗口中的所述能量區(qū)域的位置對應于以下中的一個:
出現(xiàn)在所述相應時間窗口中的所述能量區(qū)域是否在所述相應時間窗口之前開始并在所述相應時間窗口之后結束,
出現(xiàn)在所述相應時間窗口中的所述能量區(qū)域是否在所述相應時間窗口之前開始并在所述相應時間窗口內(nèi)結束,
出現(xiàn)在所述相應時間窗口中的所述能量區(qū)域是否在所述相應時間窗口內(nèi)開始并在所述相應時間窗口之后結束,和
出現(xiàn)在所述相應時間窗口中的所述能量區(qū)域是否在所述相應時間窗口內(nèi)開始并在所述相應時間窗口內(nèi)結束;以及
將特征的每個散列與所述特定時間一起存儲。
2.根據(jù)權利要求1所述的方法,包括:
將特征的每個散列轉(zhuǎn)換為所述特征的MinHash表示或MinHash值;以及
將所述MinHash值與所述特定時間一起存儲。
3.根據(jù)權利要求1所述的方法,包括:
將特征的每個散列轉(zhuǎn)換為所述特征的MinHash表示,所述MinHash表示具有一百個MinHash值;
以分片大小五對所述一百個MinHash值進行分片,以獲得二十行或二十組五個MinHash分片值;
將行或組內(nèi)的五個MinHash分片值組合成64比特數(shù),以獲得具有二十個64比特數(shù)的指紋散列;以及
將所述指紋散列與所述特定時間一起存儲。
4.根據(jù)權利要求1所述的方法,其中獲取一段音頻的音頻樣本包括:
使用4096個樣本的采樣窗口大小和31/32的窗口重疊在8kHz下對該段音頻進行采樣。
5.根據(jù)權利要求1所述的方法,其中所述頻帶包括四十四個頻帶,所述四十四個頻帶為以200Hz開始的第一頻帶到以3300Hz結束的第四十四頻帶。
6.根據(jù)權利要求1所述的方法,其中所述頻帶包括四十四個頻帶,所述四十四個頻帶的帶寬從以200Hz開始的第一頻帶到以3300Hz結束的第四十四頻帶以對數(shù)方式減小。
7.根據(jù)權利要求1所述的方法,其中所述時間窗口中的每一個的窗口大小為1000毫秒并且窗口重疊為950毫秒。
8.根據(jù)權利要求1所述的方法,其中識別能量區(qū)域包括:忽略所述頻帶中的所述一個頻帶內(nèi)滿足如下條件的時間區(qū)域:在該時間區(qū)域期間,音頻能量波動使得該時間區(qū)域內(nèi)的凈能量變化從該時間區(qū)域的開始時間到結束時間為零。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于源數(shù)碼有限公司,未經(jīng)源數(shù)碼有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780034005.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04N 圖像通信,如電視
H04N21-00 可選的內(nèi)容分發(fā),例如交互式電視,VOD〔視頻點播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務器,例如:VOD服務器;其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設備,如STB[機頂盒];相關操作
H04N21-60 .用于在服務器和客戶端之間或者在遠程客戶端之間的視頻分配的網(wǎng)絡結構或者處理
H04N21-80 .通過內(nèi)容產(chǎn)生器獨立于分配過程實現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理;內(nèi)容本身
H04N21-81 ..其單媒體部件





