[發明專利]基于多角度自注意力機制的圖像-文本檢索系統及方法在審
| 申請號: | 201910134902.7 | 申請日: | 2019-02-24 |
| 公開(公告)號: | CN109992686A | 公開(公告)日: | 2019-07-09 |
| 發明(設計)人: | 張玥杰;李文杰;張濤 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F16/53 | 分類號: | G06F16/53;G06F16/535;G06F16/33;G06N3/04 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;陸尤 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 嵌入 圖像 網絡 文本 獲取圖像 多模態 文本檢索系統 注意力 注意力機制 空間映射 神經網絡 雙向循環 訓練模塊 多階段 卷積 向量 公共數據集 單詞特征 關鍵區域 檢索技術 嵌入空間 區域特征 模態 單詞 句子 學習 | ||
1.一種多角度自注意力機制的圖像-文本檢索系統,其特征在于,包括:深度卷積網絡,雙向循環神經網絡,圖像自注意力網絡,文本自注意力網絡,多模態空間映射網絡,及多階段訓練模塊;所述深度卷積網絡用于獲取圖像區域特征在圖像嵌入空間的嵌入向量,并輸入至圖像自注意力網絡;所述雙向循環神經網絡用于獲取單詞特征在文本空間的嵌入向量,并輸入至文本自注意力網絡;所述圖像自注意力網絡用于獲取圖像關鍵區域的嵌入表示;所述文本自注意力網絡用于獲取句子中關鍵單詞的嵌入表示;所述多模態空間映射網絡用于獲取圖像文本的在多模態空間的嵌入表示;所述多階段訓練模塊用于學習網絡中的參數。
2.根據權利要求1所述的圖像-文本檢索系統,其特征在于,所述深度卷積網絡采用152層ResNet;ResNet將所述圖像表示為7x7x2048的特征映射,特征映射的計算公式為V=CNNEnc(Ii;θCNN),其中,θCNN是ResNet中包含的所有參數,Ii為輸入圖像,V={v1,v2,…,vR}為圖像區域表示,為2048維,R(7x7)為區域的個數;
所述雙向循環網絡采用門控循環單元(GRU);雙向循環網絡將所述文本中每個單詞表示為1024維向量,特征映射的計算公式為:U=GRUEnc(Ti;θGRU),其中,θGRU是雙向循環網絡中包含的所有參數,Ti為輸入文本,U={u1,u2,…,uT}為單詞表示,T為單詞個數。
3.根據權利要求1所述的圖像-文本檢索系統,其特征在于,所述圖像、文本自注意力網絡,其輸入分別為圖像區域表示V和單詞表示U;每個區域或單詞的權重通過兩層全連接以及softmax函數獲得,即:
然后,對每個區域進行加權求和,獲得每個角度的特征表示:
其中,m為角度數,v(i)和u(i)分別為第i個角度圖像和文本的特征表示;V為圖片區域特征表示,Pv,Qv,為其參數,Wv為求得的權重;與之對應,U為單詞特征表示,Pu,Qu,為其參數,Wu為求得的權重。
4.根據權利要求1所述的圖像-文本檢索系統,其特征在于,所述多模態映射網絡把圖像特征和文本特征映射到多模態空間中,其計算公式為:
v=L2norm(Fv[v(0);v(1);…;v(m)]+bv)
u=L2norm(Fu[u(0);u(1);…;u(m)]+bu)
其中,Fv和Fu為映射矩陣,bv和bu為偏置權重,v和u分別為多模態空間圖像與文本的嵌入表示。
5.根據權利要求1所述的圖像-文本檢索系統,其特征在于,所述多階段訓練模塊,其中,先采用第一階段損失函數訓練,然后采用第二階段損失函數進行訓練,最后以一個較小的學習率聯合所有模塊包括ResNet網絡進行微調;
第一階段損失函數為:
第二階段損失函數為:
其中,I為單位向量,S為圖片與文本的相似矩陣,對角線上的元素即為匹配的圖像文本對的相似性,非對角線上的元素為不匹配的圖像文本對的相似性,相似性的計算為圖片特征表示v和文本特征表示u的余弦相似性,即為s(v,u)=vTu,[x]+≡max(x,0)。
6.一種基于權利要求1-5之一所述圖像-文本檢索系統的圖像-文本檢索方法,其特征在于,具體步驟為:
步驟一、由深度卷積網絡獲取圖像區域在嵌入空間中的嵌入向量,并輸出至圖像自注意力網絡中;
由雙向循環網絡獲取文本單詞在嵌入空間中的嵌入向量,并輸出至文本自注意力網絡中;
步驟二、由圖像、文本多角度自注意力網絡,提取圖像、文本中關鍵區域的表示和關鍵單詞的表示;
步驟三、由多模態空間映射網絡把圖像文本映射至一個多模態空間中;
步驟四、由多階段訓練模塊,采用不同的損失函數進行參數學習。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910134902.7/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





