[發明專利]基于雙視域語義推理網絡的圖像文匹配方法在審
| 申請號: | 202010012176.4 | 申請日: | 2020-01-07 |
| 公開(公告)號: | CN111242197A | 公開(公告)日: | 2020-06-05 |
| 發明(設計)人: | 吳春雷;吳杰;王雷全;路靜;段海龍 | 申請(專利權)人: | 中國石油大學(華東) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/46 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 266580 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 視域 語義 推理 網絡 圖像 匹配 方法 | ||
1.基于雙視域語義推理網絡的圖像文匹配方法,其特征在于,所述方法包括以下步驟:
S1.從全局視域,構建全局語義推理匹配網絡。
S2.構建區域增強模塊,形成高亮顯示圖像區域的空間地圖。
S3.結合S2中的增強特征,從局部視域構建局部語義推理匹配網絡。
S4.結合S1中的網絡和S3中的局部語義推理網絡構建基于雙視域語義推理網絡架構。
S5.基于雙視域語義推理網絡的訓練和圖像文本匹配。
2.根據權利要求1所述的基于雙視域語義推理網絡的圖像文匹配方法,其特征在于,所述S1的具體過程為:
基于圖像區域特征X,我們使用雙向GRU進行圖像的全局推理,將區域特征的序列X={x1,…,xM},xm∈RD,一個接一個地進入Bi-GRUs。首先進行前向的推理,一個更新門Z控制上一時刻的狀態信息被帶入到當前狀態中的程度。
Zt=sigmoid(Uzxt+VzCt-1) (1)
其中U和V為權值參數,Z值在[0,1]之間。特別是,較大的Z表示前一時刻的狀態信息更多。
復位門類似于更新門,它控制將多少來自前一狀態的信息寫入當前候選集H,而較小的r表示前一時刻的狀態信息更少。
rt=sigmoid(Uzxt+VzCt-1) (2)
然后利用復位門對內存信息進行復位,得到Eq16中的候選集合H。當r=0時,表示所有已記憶的信息被清除,當r=1時,表示所有已記憶的信息被保留。
最后,使用Z更新當前隱藏狀態的輸出,獲得正向推理的特征。
同樣,通過反向推理得到特征信息最終的圖像特征C表示如下:
然后用公式6計算圖像和文本的相似度得分.
3.根據權利要求1所述的基于雙視域語義推理網絡的圖像文匹配方法,其特征在于,所述S2的具體過程為:
首先使用公式7來測量每個圖像中所有區域間的相關性,將相關性作為一個權重表示其他位置與當前待計算位置的相似度,進而突出相關的區域。
其中F(xm)TG(xn)代表兩個圖像區域間的相關性,xm為第m個區域的圖像特征,xn為第n個區域的圖像特征。F(xm)=Wfx,G(xn)=Wgx,H(xn)=Whx,參數W均可以通過反向傳播學習。然后按照因子N進行歸一化,其中N代表圖片中的區域數。
為了得到具有更強的語義關系圖像區域特征X*,我們添加了殘差網絡,得到下式。
X*=W(Vm)Res+xi (8)
其中參數W的維數為1024×1024,輸出的特征X*={x1,...,xm},xm∈RD是使圖像中主體區域顯著的空間地圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國石油大學(華東),未經中國石油大學(華東)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010012176.4/1.html,轉載請聲明來源鉆瓜專利網。





