[發明專利]基于受限文本空間的對抗性跨媒體檢索方法有效
| 申請號: | 201810101127.0 | 申請日: | 2018-02-01 |
| 公開(公告)號: | CN108319686B | 公開(公告)日: | 2021-07-30 |
| 發明(設計)人: | 王文敏;余政;王榮剛;李革;王振宇;趙輝;高文 | 申請(專利權)人: | 北京大學深圳研究生院 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/58;G06F16/28;G06N3/08 |
| 代理公司: | 北京萬象新悅知識產權代理有限公司 11360 | 代理人: | 黃鳳茹 |
| 地址: | 518055 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 受限 文本 空間 對抗性 媒體 檢索 方法 | ||
1.一種基于受限文本空間的對抗性跨媒體檢索方法,設計特征提取網絡、特征映射網絡和模態分類器,通過學習得到受限文本空間,提取適用于跨媒體檢索的圖像和文本特征,實現圖像特征從圖像空間到文本空間的映射;通過對抗性訓練機制使得學習過程中不斷減小不同模態數據之間特征分布的差異性;由此實現跨媒體檢索;具體地:
A.特征提取網絡包括圖像特征提取網絡和文本特征提取網絡,分別用于圖像特征提取和文本特征提取;圖像特征提取網絡通過VGGNet和NIC中的一種或兩種學習得到了圖像特征IConcat,包括4096維的特征IVGG和由圖像描述算法所提取的圖像特征INIC中的一種或兩種;文本特征提取網絡使用長短期記憶循環神經網絡LSTM或雙向LSTM網絡BLSTM提取d維的文本特征;
B.模態分類器作為對抗網絡中的辨別器,對模態分類器的訓練通過優化二分類交叉熵損失函數實現;該函數也是特征映射網絡的額外的對抗損失函數;
C.特征映射網絡通過參數θf學習得到一個受限文本空間;針對特征提取網絡學習得到圖像特征IConcat包含的IVGG和INIC,在特征映射網絡中設計映射函數f(·)和g(·),分別用于實現IVGG和INIC到d維文本空間特征的映射IVGG_txt和INIC_txt;在特征映射網絡的頂層設計一個特征融合層,將IVGG_txt和INIC_txt融合成Ifinal,作為輸入圖像在受限文本空間中的d維特征表示;受限文本空間的維度為d;
假設訓練數據集D={D1,D2,…,Dn}共有n個樣本,每個樣本Di包括一張圖片Ii和一段描述性文本Ti,即Di=(Ii,Ti),每一段文本由5個句子組成,每一個句子都獨立地對相匹配的圖片進行描述;針對數據集D,執行如下步驟1)-4)對所述特征提取網絡、特征映射網絡和模態分類器進行訓練:
1)通過特征提取網絡提取D中圖像和文本的特征:對于D中的圖像,使用VGG模型和圖像描述算法NIC提取得到圖像特征;對于D中的文本,使用長短期記憶循環神經網絡LSTM提取得到文本特征,并實現文本到特征空間的映射,LSTM網絡的參數與特征映射網絡的參數需同步更新;
2)特征映射網絡將文本和步驟1)得到圖像特征分別映射至初始狀態下的受限文本空間,首先通過相似性衡量函數計算特征向量之間的距離,比較特征向量之間的相似度,得到當前的三元組損失;再將不同模態數據的特征向量送入模態分類器進行分類,得到當前的對抗損失;最后通過優化三元組損失和對抗損失的組合損失函數訓練受限文本空間;
3)將步驟2)得到的位于同一受限文本空間的圖像和文本特征分別送入模態分類器進行分類,并通過交叉熵損失訓練模態分類器;
4)重復步驟2)-3),直至特征映射網絡收斂;
5)對檢索請求計算得到該檢索請求數據的圖像或文本在受限文本空間中與數據集D中另一模態數據之間的距離,根據距離對檢索結果進行排序,進而得到最相近的檢索結果;具體通過空間中不同模態數據的特征向量之間的點積計算距離;
通過上述步驟,實現基于受限文本空間的對抗性跨媒體檢索。
2.如權利要求1所述的對抗性跨媒體檢索方法,其特征是,圖像特征提取的計算過程表示如式1:
其中,VGGNet(·)是19層的VGG模型,用于提取輸入圖像的4096維特征IVGG;NIC(·)是圖像描述算法,用于提取圖像的512維特征INIC;Concatenate(·)是特征連接層,用于將IVGG和INIC連接成4608維的特征IConcat。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學深圳研究生院,未經北京大學深圳研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810101127.0/1.html,轉載請聲明來源鉆瓜專利網。





