[發明專利]一種基于混合遷移網絡的跨媒體檢索方法有效

申請號：	201710378474.3	申請日：	2017-05-25
公開（公告）號：	CN107220337B	公開（公告）日：	2020-12-22
發明（設計）人：	黃鑫;彭宇新	申請（專利權）人：	北京大學
主分類號：	G06F16/43	分類號：	G06F16/43;G06F40/30;G06N5/02
代理公司：	北京君尚知識產權代理有限公司 11200	代理人：	邱曉鋒
地址：	100871 北***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于混合遷移網絡媒體檢索方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于混合遷移網絡的跨媒體檢索方法，包括以下步驟：

(1)建立包含一種媒體類型的單媒體數據庫，同時建立包含多種媒體類型的跨媒體數據庫，并將所述跨媒體數據庫中的數據分為訓練集和測試集；

(2)利用單媒體數據庫和跨媒體數據庫的訓練集中的數據訓練混合遷移網絡，用于學習不同媒體數據的統一表征；所述混合遷移網絡包括媒體共享遷移子網絡和網絡層共享關聯子網絡；其中媒體共享遷移子網絡以源域、目標域中的共有媒體為橋梁，聯合進行單媒體遷移和跨媒體遷移，使得單媒體源域中的知識能夠被同時遷移到目標域中的所有媒體；網絡層共享關聯子網絡則利用網絡層共享的方式，充分考慮蘊含于目標域中的跨媒體關聯關系，使得屬于相同語義類別的跨媒體數據生成相近的統一表征；

(3)利用訓練好的混合遷移網絡，得到跨媒體數據庫的測試集中數據的統一表征，進而計算跨媒體數據的相似性；

(4)使用跨媒體測試集中的一種媒體類型作為查詢集，另一種媒體類型作為檢索庫，利用查詢集中的每個數據作為樣例，與檢索庫中的每個數據計算相似性，根據相似性得到檢索結果。

2.如權利要求1所述的方法，其特征在于，步驟(1)中的單媒體數據庫包括一種媒體類型；跨媒體數據庫包括兩種媒體類型，其中一種為單媒體數據庫的媒體類型。

3.如權利要求1所述的方法，其特征在于，步驟(2)中的媒體共享遷移子網絡共有三路輸入：源域圖像、目標域圖像、目標域文本，三路輸入分別經過兩層全連接網絡處理；在訓練過程中聯合考慮單媒體遷移和跨媒體遷移兩個方面來實現從單媒體源域到跨媒體目標域的知識遷移；所述單媒體遷移發生在源域圖像和目標域圖像兩路網絡之間，所述跨媒體遷移發生在目標域圖像與目標域文本之間。

4.如權利要求3所述的方法，其特征在于，所述單媒體遷移采用特征適應方式進行，定義兩個域中圖像數據a與b的最大平均差異在再生希爾伯特空間H_k中的平方形式為：

其中，i^s和i^t分別表示源域、目標域的輸入圖像，表示深度網絡中網絡層的輸出，E_a和E_b表示源域、目標域上的期望；

據此，構建單媒體遷移損失項如下：

其中，l₆與l₇為源域圖像、目標域圖像兩路網絡中對應的全連接層，I^s和I^t分別表示源域、目標域的圖像集合；此外，源域圖像網絡也需要在I^s上進行微調以挖掘源域和目標域的語義關聯信息，為此建立源域監督損失項：

其中，表示源域中的帶標注圖像，為的標注標簽，θ^s表示目標域分支的網絡參數，m表示源域中有標注的圖像數量，為softmax損失項，定義如下：

其中θ為網絡參數，y為數據x的標簽，c為x所有可能的標簽數量；1{y＝j}為指示函數，若y＝j則返回1，否則為0。

5.如權利要求3所述的方法，其特征在于，所述跨媒體遷移中每個圖像-文本對具有相關的高層語義，因此使它們的網絡層具有相似的輸出以實現跨媒體知識遷移；令每個圖像-文本對為定義跨媒體差異如下：

其中，和分別表示一個圖像-文本對中帶標注的圖像和文本數據，表示深度網絡中網絡層的輸出，據此建立跨媒體遷移損失項如下：

其中，l₆與l₇為目標域圖像、文本兩路網絡中對應的全連接層，n_l表示目標域帶標注的圖像-文本對數量。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京大學，未經北京大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】