[發明專利]一種基于關聯分析的異構媒體相似性計算方法和檢索方法有效
| 申請號: | 201410356922.6 | 申請日: | 2014-07-24 |
| 公開(公告)號: | CN104199826B | 公開(公告)日: | 2017-06-30 |
| 發明(設計)人: | 彭宇新;翟曉華 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙)11200 | 代理人: | 余功勛 |
| 地址: | 100871 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 關聯 分析 媒體 相似性 計算方法 檢索 方法 | ||
技術領域
本發明涉及多媒體檢索技術領域,具體涉及一種基于關聯分析的異構媒體相似性計算方法,以及異構媒體檢索方法。
背景技術
近年來,隨著互聯網技術與數碼設備的迅速發展,網絡上出現了海量的文本、圖像等多媒體內容,如何利用計算機來進行有效的管理,使用戶能夠迅速準確地檢索到想要的內容,成為了一個急待解決的關鍵問題。現有的檢索方式一般局限于單媒體檢索,如基于內容的圖像檢索。然而,這種檢索方式只能檢索出與用戶查詢相同媒體的結果,而用戶一般需要能夠一次檢索出所有相關的媒體數據,包括不同媒體類型的數據。因此,基于內容的異構媒體檢索獲得了研究者的廣泛關注,這種檢索方式不僅能夠檢索出用戶關心的所有媒體數據,而且不限制用戶的查詢媒體類型,因此相比較傳統的單媒體檢索更加方便有效。
現有的異質媒體相似性計算方法主要有兩類:第一類是基于圖模型的相似性計算方法,第二類是基于學習的相似性計算方法。基于圖模型的相似性計算方法大多基于共生性假設:如果兩個多媒體文檔包含同一個媒體對象,那么這兩個多媒體文檔就具有相同的語義信息。Zhuang等人在文獻“Mining Semantic Correlation of Heterogeneous Multimedia Data for Cross-Media Retrieval”中提出了“統一跨媒體關聯圖”模型(Uniform Cross-Media Relationship Graph,簡稱UCCG),每個媒體對象對應于UCCG的一個結點,有多少個媒體對象,UCCG中就有多少個結點,結點之間連線的權值表示兩個媒體對象之間的相似度。對于用戶查詢,可以根據圖的傳遞算法計算用戶查詢與所有結點的相似度。由于基于圖的方法存在大量參數,參數的設置也是一個難題。因此第二類基于學習的相似性計算方法被提出,Rasiwasia等人在其文獻“A New Approach to Cross-Modal Multimedia Retrieval”中提出了基于子空間映射的異構媒體相似性計算方法,可以將異構媒體映射到統一空間中計算其夾角余弦值作為相似性,Yang等人在文獻“Ranking with local regression and global alignment for cross media retrieval”中提出了一種對參數不敏感的基于局部回歸和全局校正(Local Regression and Global Alignment,簡稱LGRA)的學習算法,可以學習出拉普拉斯矩陣用于排序。然而,這類方法均依賴于共生性假設,當查詢媒體對象位于待檢索數據庫以外時,也就是說,數據庫中沒有一個多媒體文檔包含這個查詢媒體對象時,那么就無法直接通過共存性質找到與之具有相同語義的跨媒體文檔。一種直接的做法是根據媒體對象的底層特征計算距離最近的媒體對象,然而,底層特征并不一定能夠體現出媒體的語義信息。因此,這種相似度的計算方法能夠達到的效果有限。為了彌補這種不足,使相似度的計算更加符合媒體的語義特征,這類方法都使用了相關反饋,引入了人工參與,但是這降低了算法的自動化程度。
發明內容
針對現有技術的不足,本發明提出了一種基于關聯分析的異構媒體相似性計算方法和異構媒體檢索方法,能夠充分挖掘媒體內部和媒體之間的關聯關系,通過分析媒體內部的數據分布信息和媒體之間的語義關聯信息來計算異構媒體數據的內容相似性,從而能夠充分挖掘蘊含于異構媒體數據中的有效信息,提高異構媒體檢索的準確率。
為達到以上目的,本發明采用的技術方案如下:
一種基于關聯分析的異構媒體相似性計算方法,用于計算不同媒體類型之間的異構媒體相似性,實現異構媒體檢索,包括以下步驟:
(1)建立包含不同媒體類型的異構媒體數據庫,并將所述數據庫分為訓練集和測試集,提取每種媒體類型數據的特征向量;
(2)基于媒體內部關聯關系,通過近鄰分析計算不同媒體的內容相似性;
(3)基于媒體之間關聯關系,通過異構媒體約束傳遞計算不同媒體的內容相似性;
(4)通過自適應排序結果融合算法融合媒體內部和媒體之間的內容相似性獲得最終的相似性計算結果。
進一步,上述一種基于關聯分析的異構媒體相似性計算方法,所述步驟(1)不同媒體類型為文本和圖像,對于文本數據,提取其隱狄雷克雷分布特征向量;對于圖像數據,提取其詞袋特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410356922.6/2.html,轉載請聲明來源鉆瓜專利網。





