[發明專利]一種基于統一稀疏表示的跨媒體檢索方法在審
| 申請號: | 201410356736.2 | 申請日: | 2014-07-24 |
| 公開(公告)號: | CN104166684A | 公開(公告)日: | 2014-11-26 |
| 發明(設計)人: | 翟曉華;彭宇新;肖建國 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 余功勛 |
| 地址: | 100871 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 統一 稀疏 表示 媒體 檢索 方法 | ||
技術領域
本發明涉及多媒體檢索技術領域,具體涉及一種基于統一稀疏表示的跨媒體檢索方法。
背景技術
隨著大數據時代的來臨,互聯網上的多媒體數據迅速增長,包括文本、圖像、視頻、音頻等各種媒體數據。然而,現有的搜索引擎如谷歌、百度等仍然依賴于基于關鍵詞的檢索,這種檢索方式一方面忽略了圖像、視頻、音頻等多媒體數據本身的信息,另一方面當多媒體數據周邊沒有文本時,便無法進行搜索。盡管有一些研究工作關注基于內容的單媒體檢索,如以圖搜圖等,然而無法支持基于內容的跨媒體檢索,例如用一張圖像樣例,檢索出所有相關的媒體數據,不僅包括相關的圖像,還包括文本、視頻、音頻、3D等。這種檢索方式比傳統的基于關鍵詞的檢索和基于內容的單一媒體檢索更加符合用戶需求,一方面檢索結果更加全面,用戶可以一次獲得所有相關的各種媒體結果,另一方面用戶可以提交任意媒體作為查詢,而不必限制查詢媒體的類型,因此檢索方式更加靈活。
現有的跨媒體檢索方法一般可以分為兩類。第一類是基于子空間的映射技術,這一類方法以典型相關分析(Canonical?Correlation?Analysis,簡稱CCA)為代表,CCA是一種類似于主成分分析(Principal?Component?Analysis,簡稱PCA)的降維技術,不同的是CCA可以同時分析兩組變量之間的相關性,學習出映射子空間使得在子空間中兩組變量的相關性最大。除了CCA以外,Li等人在文獻“Multimedia?content?processing?through?cross-modal?association”中提出了一種新的跨模態因子分析方法(Cross-modal?Factor?Analysis,簡稱CFA)用于學習兩組異構數據的映射空間,不同于CCA最大化兩組數據之間的相關性,CFA的學習目標是在映射后的空間中,最小化兩組數據之間的弗羅貝尼烏斯范數(Frobenius?Norm),并且取得了比CCA更好的效果。
然而,現有方法往往只考慮了數據之間的一一對應關系,例如通過CCA或者CFA學習出映射子空間,使得原始的一一對應的跨媒體數據之間的相關性最大。它們不能挖掘更加豐富的語義信息,例如跨媒體數據的語義類別信息。因此第二類基于語義映射的方法被提出,Rasiwasia等人在其文獻“A?New?Approach?to?Cross-Modal?Multimedia?Retrieval”中提出了兩個假設:(1)對圖像和文本兩種媒體之間的關聯關系進行建模有利于跨媒體檢索;(2)高層抽象表示能夠進一步提高跨媒體檢索的效果。在Rasiwasia等人的工作中,跨媒體數據之間的關聯信息通過CCA進行學習,高層抽象通過邏輯回歸將文本或圖像表示為具有相同維度的語義概念向量,其中每一維表示該多媒體數據屬于對應類別的概率。然而,該方法在學習的過程中只能考慮兩種媒體類型之間的關系,并且沒有考慮利用稀疏性來降低跨媒體數據中的噪聲,并且該方法的兩個學習步驟是獨立進行的,不能夠同時考慮關聯信息和語義類別信息,因此誤差積累傳播至后續的特征學習階段,從而使得最終的跨媒體檢索的準確率下降。
發明內容
針對現有技術的不足,本發明提出了一種基于統一稀疏表示的跨媒體檢索方法,能夠充分考慮多種媒體類型之間的關聯關系,同時學習多種媒體類型的稀疏特征表示,從而有效地過濾特征表示中的噪聲,并使得不同媒體數據能夠互相校正,進一步提高統一特征表示的有效性,提高跨媒體檢索的準確率。
為達到以上目的,本發明采用的技術方案如下:
一種基于統一稀疏表示的跨媒體檢索方法,用于統一表示多種不同媒體類型實現跨媒體檢索,包括以下步驟:
(1)建立包含多種媒體類型的跨媒體數據庫,并將所述數據庫分為訓練集和測試集,提取每種媒體類型數據的特征向量;
(2)通過訓練集的多媒體數據,為每種媒體類型數據學習跨媒體統一稀疏表示的特征映射矩陣;
(3)根據特征映射矩陣,將測試集中的每種媒體類型數據映射到統一的空間中,得到跨媒體數據的統一稀疏表示;
(4)基于統一稀疏表示,計算任意媒體數據之間的跨媒體相似性;
(5)將測試集中的每個數據作為查詢樣例,整個測試集作為查詢目標集進行查詢;計算查詢樣例和查詢目標集中媒體數據之間的相似性,進而根據相似性得到跨媒體統一檢索結果,檢索結果包含所有相關的媒體類型數據。
進一步,上述一種基于統一稀疏表示的跨媒體檢索方法,所述步驟(1)多種媒體類型為五種媒體類型,包括文本、圖像、視頻、音頻和3D。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410356736.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種生物阻抗測量用電極轉接裝置
- 下一篇:固定式窗擦





