[發明專利]一種基于時頻局部能量的特征點的音頻檢索方法和系統在審
| 申請號: | 201810107532.3 | 申請日: | 2018-02-02 |
| 公開(公告)號: | CN108197319A | 公開(公告)日: | 2018-06-22 |
| 發明(設計)人: | 胡俊;李湑;陳毅 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京華仲龍騰專利代理事務所(普通合伙) 11548 | 代理人: | 李靜 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 局部能量 音頻指紋 特征點 音頻檢索 預處理 數據庫索引 特征點匹配 相似度 時頻 時域 海量音頻數據庫 計算機應用領域 抗噪聲性能 相似度計算 音頻數據庫 候選查詢 檢索效率 兩套系統 音頻片段 有效解決 正確率 構建 兩套 算法 排序 檢索 語音 輸出 音樂 | ||
本發明涉及一種基于時頻局部能量的特征點的音頻檢索方法和系統,屬于計算機應用領域。該方法對于音頻數據庫,先進行預處理,然后再提取時域局部能量很突出的點作為特征點,用特征點匹配成音頻指紋,利用音頻指紋構建數據庫索引;對于樣例音頻片段,也是先進行預處理,然后提取時域局部能量很突出的點作為特征點,用特征點匹配成音頻指紋;在線的音頻指紋在數據庫索引中進行候選查詢,找出候選的音頻,然后對候選的所有音頻進行相似度計算;對得出的所有相似度進行排序,輸出相似度最高的音頻以及音頻的信息。本發明有效解決了音樂、語音需要兩套算法兩套系統的問題,在對于海量音頻數據庫,有效提高音頻檢索的檢索正確率、檢索效率以及抗噪聲性能。
技術領域
本發明屬于計算機應用領域,涉及一種基于時頻局部能量的特征點的音頻檢索方法和系統。
背景技術
隨著互聯網的飛速發展,特別是多媒體技術和網絡技術的發展,互聯網信息呈現爆炸式地增長。根據數據公司IDC統計,近年來全球的數據量每年增加超過50%,并且增長速度仍在加快,預計到2025年內互聯網數據量會超過40ZB。其中音頻數據占有很大的一部分,如何能夠快速、有效地在現有的互聯網海量音頻信息中檢索到用戶需要的內容,是很急迫需要解決的問題。
傳統的音頻信息檢索技術需要對音頻信息進行人工標注,但人工標注不僅會造成標注信息的錯誤,這樣就會對音頻檢索造成錯誤,而且在面對海量的互聯網音頻信息,也會消耗大量的人力物力資源,所以傳統的基于文本的音頻信息檢索無法滿足人們對音頻檢索的需求。也就是說,如果用戶聽到一段很熟悉的音頻,想通過錄制幾秒鐘的片段來查詢整段音頻的信息,目前在技術上仍然存在較大的實現難度。
基于音頻的樣例檢索,指的是用戶輸入從原始音頻截取的片段或者通過麥克風重新錄制一段音頻片段,這些片段中可能含有各種噪聲,系統能正確返回音頻片段的相關信息。
目前互聯網上的音頻信息檢索主要是基于文本搜索的,是通過匹配音頻相關標注文字的信息而返回給用戶結果。而人工標注不僅會造成標注信息的錯誤,這樣就會對音頻檢索造成錯誤,而且在面對海量的互聯網音頻信息,也會消耗大量的人力物力資源,是不可取的方法。要想對錄制的音頻片段進行搜索,就涉及到基于內容的樣例音頻檢索。而現有的音頻檢索技術尚不能滿足人們的需求。而互聯網上的音頻信息主要包括語音、音樂等,基于音樂的樣例檢索技術已經發展比較成熟,有許多商用的系統,比如Shazam、網易云音樂的聽歌識曲等,但基于語音的樣例檢索技術還在處于發展階段,有一些音頻檢索系統,但現有的語音檢索的系統主要基于語音識別技術,在安靜的環境下基本上達到了很好的檢索效果,但是其處理速度依然有限,其算法的復雜程度在處理海量語音數據的時候依然比較困難,并且需要大量的人工標注,而基于樣例的音樂檢索系統中,其理論的處理速度比基于語音識別的系統要快的多,使得其有可能處理海量的互聯網音頻數據。而且現在的音樂和語音檢索使用的是兩套算法兩套系統,使用起來不是很方便,如果對于語音的檢索取得較好的效果,那么使得語音檢索和音樂檢索能夠在同一個系統中得到應用,而不需要兩套系統兩套算法。
基于音頻的樣例檢索,通常可以分為兩個子問題:(1)把查詢的音頻片段轉為具有代表性的特征序列組成音頻指紋(音頻指紋是指能代表一段音頻并能構建索引的特征序列);(2)在庫中搜索與音頻指紋最相似的候選片段。比較經典的音樂檢索方法是英國的shazam公司,提取頻譜峰值信息,然后將特征點組成特征點對,把特征點對作為該片段的音頻指紋,搜索時候建立哈希索引實現快速搜索。此方法的特點是不需要保留頻譜的全局信息,特征具有代表性,在海量的數據庫中有比較快的檢索速度,缺點是魯棒性還需要加強,在很強的噪音下查詢的精確率會下降很多。
發明內容
有鑒于此,本發明的目的在于提供一種基于時頻局部能量的特征點的音頻檢索方法和系統,通過錄制的原始音頻片段(或者從原始片段中截取的音頻片段)搜索到整個音頻的完整信息,有效解決音樂、語音需要兩套算法兩套系統的問題,在對于海量音頻數據庫,有效提高音頻檢索的檢索正確率、檢索效率以及抗噪聲性能。
為達到上述目的,本發明提供如下技術方案:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810107532.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:人臉識別方法、裝置、機器人及存儲介質
- 下一篇:一種多視圖圖像自動標注方法





