[發明專利]一種三級音頻索引的創建方法及音頻檢索方法有效
| 申請號: | 201010177959.4 | 申請日: | 2010-05-20 |
| 公開(公告)號: | CN101833986A | 公開(公告)日: | 2010-09-15 |
| 發明(設計)人: | 鄭貴濱;韓紀慶;鄭鐵然;姜濤;王勇;張慧;狄少嘉;唐健琪;丁麗 | 申請(專利權)人: | 哈爾濱工業大學;國家計算機網絡與信息安全管理中心 |
| 主分類號: | G11B27/10 | 分類號: | G11B27/10 |
| 代理公司: | 哈爾濱市松花江專利商標事務所 23109 | 代理人: | 張果瑞 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 三級 音頻 索引 創建 方法 檢索 | ||
技術領域
本發明涉及一種三級音頻索引的創建方法及基于三級音頻索引的音頻檢索方法,屬于多媒體領域。
背景技術
隨著計算機技術、網絡技術及多媒體技術的迅猛發展,音頻信息的數據量急劇增多。如何能夠自動、準確、快速地尋找到感興趣的內容,實現基于音頻內容的信息檢索,就成為一個既迫切又具有挑戰性的研究課題。音頻信息檢索技術在音頻信息搜索引擎、實時檢索網上電視和音/視頻點播節目中的多媒體信息內容、音頻信息統計與分類等方面有著廣闊的應用前景。音頻樣例檢索是指從檢索源數據中查找和目標音頻數據相同的音頻片段。由于噪音不可避免,所謂相同,也只能是聽覺效果上的相同而不是物理信號的相同。
為了在海量數據下,實現快速音頻樣例檢索,需要構建有效的音頻索引。然而音頻索引一直是索引研究領域中的難點,存在著如下困難:(1)音頻數據的特征維數高,存在著“維數的詛咒”,即,索引的復雜度隨維數的增加呈指數增長,這一直是索引研究領域中的難點;(2)音頻數據非離散可分,不存在自然的分割點;(3)音頻數據具有時序性,需要存在一定時長的連續數據才有意義。此外,音頻信息檢索的種類不同,檢索中對音頻信息的著眼點和采用的檢索方法也有很大差異。目前的技術沒有建立對所有音頻檢索類別都通用的索引機制,無法滿足大規模數據庫和網絡環境下的音頻樣例檢索要求。即,針對大規模數據庫和網絡環境下的音頻樣例檢索缺少快速、有效的索引機制,因此,在具體應用背景下,針對不同的檢索應用,研究合適的檢索和索引算法將既有理論意義又有現實意義。
發明內容
本發明目的是為了解決現有技術針對大規模數據庫和網絡環境下的音頻樣例檢索缺少快速、有效的索引機制的問題,提供了一種三級音頻索引的創建方法及音頻檢索方法。
本發明三級音頻索引的創建方法包括以下步驟:
步驟一、對數據庫中每個音頻特征文件中的n維特征向量進行降維處理,生成一維的量化值,作為第一級索引;
步驟二、將第一級索引數據按單元長度截成一系列片段,片段內的第一級索引值構成片段向量,計算每個片段向量的模ki,作為索引鍵值,以三元組形式描述片段向量,將所有片段三元組按鍵值排序則構成第二級索引;
三元組包括索引鍵值ki、源文件id和片段向量在源文件中的位置i,
步驟三、計算步驟二所述的每個片段的類別分,然后根據類別分將所有片段向量分組,作為第三級索引,即,類別索引。
基于上述三級音頻索引的檢索方法,包括以下步驟:
步驟1、對查詢音頻的特征向量序列進行降維獲取其第一級索引值,將第一級索引數據按單元長度截成一系列片段向量,計算出查詢音頻的每個片段向量的模kquery和類別分Hquer;
步驟2、在第三級索引中,將類別分為范圍內的第二級索引作為進一步搜索的集合,其中為范圍閾值;
步驟3、在集合中,將第二級索引鍵值滿足條件的片段向量保留,并利用第二級索引確定所保留片段向量對應的第一級索引值,為檢索閾值;
步驟4、在第一級索引中,將步驟3確定的片段向量的第一級索引值與步驟1獲取的查詢音頻的第一級索引值進行片段相似度匹配計算,將相似度高的音頻片段檢出。
本發明的優點:基于三級索引的音頻檢索方法具有索引尺寸小,內存開銷低、檢索速度快等特點,是適合網絡音頻處理要求的高效檢索方法。
采用一種自相似加權累積距離法將音頻特征向量量化,作為第一級索引,反應了音頻數據自身的變化情況,實現了對音頻特征的降維量化處理,解決了“維數詛咒”的問題。
在一級索引的基礎上,通過設置分析窗將窗內的多個一級索引值構成一個多維向量,即片段向量,將片段向量的模作為降維后的值并排序可作為第二級索引,既保存了音頻的時序信息,又解決了音頻信息的非離散問題。
?附圖說明
圖1是本發明創建三級索引方法中的第一級和第二級索引生成示意圖,圖2是本發明創建的三級音頻索引結構示意圖,圖3是計算查詢音頻一級索引值和二級索引值的示意圖。
具體實施方式
具體實施方式一:下面結合圖1說明三級音頻索引創建方法的具體實施方式,包括以下步驟:
步驟一、對數據庫中每個音頻特征文件中的n維特征向量進行降維處理,生成一維的量化值,作為第一級索引,即,幀級索引;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學;國家計算機網絡與信息安全管理中心,未經哈爾濱工業大學;國家計算機網絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010177959.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:摻鋁氧化鋅納米粒子的制備方法
- 下一篇:一種法庭庭審視頻實時標引方法





