[發明專利]基于比特向量的多媒體信息檢索方法和系統有效
| 申請號: | 201310359716.6 | 申請日: | 2013-08-16 |
| 公開(公告)號: | CN103440292A | 公開(公告)日: | 2013-12-11 |
| 發明(設計)人: | 劉潔 | 申請(專利權)人: | 新浪網技術(中國)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 張璐;方曉明 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 比特 向量 多媒體信息 檢索 方法 系統 | ||
技術領域
本發明涉及計算機領域,尤其涉及一種基于比特向量的多媒體信息檢索方法和系統。
背景技術
近年來,隨著多媒體技術和計算機技術的飛速發展、大規模的多媒體信息越來越多地出現在眾多的研究和應用領域。為了使這些龐雜的數據中所包含的信息能夠得到有效地訪問和利用,傳統的基于文本的檢索技術已經無法滿足用戶日益增長的需求,基于內容的檢索技術便應運而生。
基于內容的檢索方法需要先提取出多媒體的特征數據建立特征數據庫,然后將對多媒體信息的檢索轉換為對特征數據的近鄰檢索。對于大規模多媒體信息而言,其特征數據也是大規模的。這就需要有與特征數據相對應的合適的索引方法來組織特征數據,加快檢索的速度。
然而,多媒體信息的特征數據往往是高維的向量數據(簡稱高維特征向量),傳統的適應于低維數據的索引機制難以適應于基于內容檢索的要求,這也就是通常所說的高維數據的索引維數災難現象。也就是說,基于高維特征向量實現多媒體信息的檢索將耗費巨大的檢索資源、消耗很大,效率低下。
為解決上述問題,現有技術的方法,如相似敏感哈希(Similarity?Sensitive?Hash,SSH)、局部敏感哈希(Locality?Sensitive?Hash,LSH)方法,通過將高維特征向量映射為低維的比特向量,從而利用基于比特向量的相似度量方法和高效索引方法來加快高維特征向量的檢索速度,從而提高多媒體信息的檢索效率。然而,現有技術的方法易造成相似的高維特征向量(即同類的高維特征向量)被映射為不相似的比特向量,不相似的高維特征向量(即非同類的高維特征向量)被映射為相似的比特向量,導致進行多媒體信息檢索時,多媒體信息的高維特征向量映射為比特向量后,具有較大的錯誤匹配率,使得原有向量的識別能力下降。
因此,有必要提供一種基于比特向量的多媒體信息檢索方法,在保證原有向量識別能力的情況下,將多媒體信息的高維特征向量映射為低維的比特向量,以使得基于比特向量的多媒體信息的檢索效率相比于基于高維特征向量的多媒體信息的檢索效率更高,減小檢索消耗,并降低基于比特向量的多媒體信息的檢索的錯誤匹配率。
發明內容
針對上述現有技術存在的缺陷,本發明提供了一種基于比特向量的多媒體信息檢索方法和系統,用以在保證原有向量識別能力的情況下,將多媒體信息的高維特征向量映射為低維的比特向量后,使得基于比特向量的檢索效率更高、檢索消耗更小。
根據本發明的一個方面,提供了一種基于比特向量的多媒體信息檢索方法,包括:
提取當前多媒體信息的特征數據后,得到所述當前多媒體信息的n維的高維特征向量,記為X(x1,x2,...,xn);
將高維特征向量X(x1,x2,...,xn)通過投影矩陣P變換后得到m維的中間向量W(w1,w2,...,wm);
將m維的閾值向量的各元素分別與所述中間向量的相應元素進行比較,根據比較結果對所述中間向量進行二值化,得到所述當前多媒體信息的m維的比特向量;其中,m小于n;
根據得到的比特向量,在多媒體特征數據庫中查找出與該比特向量相似的比特向量,將查找出的比特向量所對應的多媒體信息作為檢索結果輸出;
其中,所述投影矩陣P為m×n的矩陣,并滿足以下條件:對于資料庫中存儲的各已分類的多媒體信息的高維特征向量,其中同類的高維特征向量經過P變換后的向量間距離期望值,與不同類的高維特征向量經過P變換后的向量間距離期望值的差值最小;
所述閾值向量滿足以下條件:對于所述資料庫中存儲的各多媒體信息的高維特征向量,其中同類的高維特征向量經過P變換、并經過所述閾值向量比較、二值化后的向量間距離期望值,與不同類的高維特征向量經過P變換、并經過所述閾值向量比較、二值化后的向量間距離期望值的差值最小。
較佳地,在所述提取當前多媒體信息的特征數據之前,還包括:
通過所述資料庫中存儲的多媒體信息訓練出所述投影矩陣P:
對于所述資料庫中存儲的多媒體信息,將其中任意一對同類的多媒體信息的高維特征向量作為一個集合元素,存儲到同類樣本集合中;并
將其中任意一對不同類的多媒體信息的高維特征向量作為一個集合元素,存儲到非同類樣本集合中;
構建出使得如下公式1中最小的投影矩陣P:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新浪網技術(中國)有限公司,未經新浪網技術(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310359716.6/2.html,轉載請聲明來源鉆瓜專利網。





