[發明專利]一種漸進式的圖像文本匹配方法在審
| 申請號: | 202210968167.1 | 申請日: | 2022-08-12 |
| 公開(公告)號: | CN115344736A | 公開(公告)日: | 2022-11-15 |
| 發明(設計)人: | 楊陽;賓燚;李灝軒;韓孟群 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06F16/33;G06N3/04;G06N3/08;G06V10/44;G06V10/74;G06V10/82 |
| 代理公司: | 成都行之智信知識產權代理有限公司 51256 | 代理人: | 溫利平 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 漸進 圖像 文本 匹配 方法 | ||
1.一種漸進式的圖像文本匹配方法,其特征在于,包括以下步驟:
(1)、建立檢索數據庫;
選取一張待檢索圖像I,將包含有圖像I匹配文本的所有文本組成文本集合,最后將圖像I及對應文本集合作為檢索數據庫;
(2)、提取圖像文本特征;
(2.1)、提取圖像特征;
采用預訓練好的Faster-RCNN目標檢測模型對圖像I進行圖像區域特征提取,并為每一個圖像區域進行置信度打分,然后根據檢測置信度得分,選擇得分最高的前m個圖像區域作為圖像特征;
(2.2)、提取文本特征;
采用預訓練好的BERT模型對檢索文本庫中的所有文本進行特征提取,提取文本中每個單詞的特征表示,從而構成文本單詞特征;
(2.3)、圖像文本特征的映射;
采用全連接層將圖像特征和每一個文本特征映射到同一個維度空間,得到映射后的圖像特征V={vi|v1,v2,…,vm}與每一個文本的特征其中,vi表示第i個圖像區域的特征,表示第t個文本中第j個單詞的特征表示,n表示文本中的單詞數量;
(2)、構建候選文本庫
(2.1)、設置多頭自注意力層中每個單頭自注意力模塊的模型;
其中,Q,K,P表示注意力操作中的向量,上標T表示轉置,d表示Q,K的維度大?。?/p>
(2.2)、將圖像特征V和文本特征Wt分別輸入至多頭自注意力層,通過將多個單頭自注意力模塊的輸出拼接,得到完整特征MH(X):
MH(X)=[H1,H2,…,Hl,…,Hh]
Hl=Attention(XWlQ,XWlK,XWlP)
其中,X表示輸入的圖像特征或文本特征,Hl表示第l個單頭自注意力模塊的輸出,h表示單頭自注意力模塊個數,WlQ,WlK,WlP表示待學習參數;
(2.3)、利用前饋全連接層對特征MH(X)進行非線性映射,得到特征FFN(MH(X)):
FFN(MH(X))=σ(MH(X)W1+b1)W2+b2
其中,b1,b2為常數,W1,W2為待學習參數,σ(·)為sigmoid函數;
(2.4)、圖像特征和文本特征通過步驟(2.2)-(2.3)的處理后,得到圖像特征與文本特征接著再通過平均池化操作得到圖像特征的整體語義表示cv與文本特征的整體語義表示
其中,為中第i個區域特征,為中第j個單詞特征;
(2.5)、計算圖像特征與每一個文本特征的整體語義表示的余弦相似度:
其中,St表示圖像特征與第t個文本特征的整體語義表示的余弦相似度,·表示求L2范數,上標T表示轉置;
(2.6)、將所有的相似度按從大到小排列,選取前K個相似度最大對應的文本構成候選文本庫
(3)、精確匹配;
(3.1)、位置信息與短語級語義的捕捉;
找出候選文本庫中各個候選文本對應的原始文本特征,其中,第個原始文本特征記為
使用全連接層與圖像區域所處位置信息為圖像特征V添加了空間位置信息,再使用卷積網絡為原始文本特征捕捉了短語級信息,得到了加強后的圖像文本特征
(3.2)、交互式引導單元;
(3.2.1)、利用全局引導單元引導圖像特征捕捉到圖像與文本間的全局語義對應信息;
對加強后的文本特征進行平均池化操作,得到文本全局特征
其中,為第個文本中第j個單詞特征;
使用全連接層獲取中每一個區域特征的全局引導方向di,再通過di進行縮放來引導局部視覺表征
其中,⊙為矩陣點積,L2(·)歸一化,Wg為待學習參數,bg為常數;
(3.2.2)、利用局部引導單元引導圖像特征捕捉到圖像與文本間的局部語義對應信息;
通過交叉注意力機制聚集單詞表征來獲取局部引導信息
其中,sij為圖像中第i個區域與文本中第j個單詞的余弦相似度,λ為超參數;
通過全連接層對局部引導信息進行投影,得到相應的縮放向量γi和移位向量βi:
其中,FCγ(·)與FCβ(·)為兩個全連接層;
最后,通過前饋全連接層和殘差連接來完成圖像區域的引導:
其中,表示第i個區域引導后的圖像特征,FFN(·)表示前饋全連接層。
(3.2.3)完成匹配;
將每個區域進行局部與全局引導的結果求和,其中,第i個區域引導后求和得:
對各區域求和后的特征進行平均池化操作,得到圖像全局表示Ve;
計算候選文本庫中的所有文本進行相似度Se;
最后選擇相似度最大的文本作為匹配結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210968167.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:圖像處理方法和系統
- 下一篇:一種基于BIM技術的建筑施工環境監測裝置
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





