[發明專利]一種層次化對齊的圖像文本檢索方法在審
| 申請號: | 202210968147.4 | 申請日: | 2022-08-12 |
| 公開(公告)號: | CN115344735A | 公開(公告)日: | 2022-11-15 |
| 發明(設計)人: | 楊陽;賓燚;李灝軒;史文浩 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06F16/33;G06V10/44;G06V10/74 |
| 代理公司: | 成都行之智信知識產權代理有限公司 51256 | 代理人: | 溫利平 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 層次 對齊 圖像 文本 檢索 方法 | ||
1.一種層次化對齊的圖像文本檢索方法,其特征在于,包括以下步驟:
(1)、建立檢索庫;
選取一張待檢索圖像I,將包含有圖像I匹配文本的所有文本Tt組成文本集合,最后將圖像I及對應文本集合作為檢索庫,其中,t表示第t個文本;
(2)、提取圖像文本特征;
(2.1)、提取圖像特征;
將12個Transformer模塊組成Swin-Transformer模型,12個Transformer模塊劃分為低、中、高3個階段,Swin-Transformer模型預訓練完成后對圖像I進行圖像區域的特征提取,得到低、中、高3個階段的特征輸出圖,分別記為Vlow,Vmiddle,Vhigh,從而將分層特征Vh表示為:
Vh={Vlow,Vmiddle,Vhigh}
其中,表示低、中、高三個階段所劃分出的第k、第m、第g個圖像區域的圖像特征,K、M、G為不同階段所劃分出區域數量;
(2.2)、提取文本特征;
將12個Transformer模塊組成BERT模型,12個Transformer模塊劃分為低、中、高3個階段,BERT模型預訓練完成后對所有文本進行文本特征提取,得到低、中、高3個階段的文本特征Tt,分別記為Wtlow,Wtmiddle,Wthigh,從而將分層特征表示為:
其中,l=1,2,…,L,表示第t個文本中低、中、高三個階段所提取的第l個單詞特征,L為第t個文本中單詞數量;
(3)、層次化對齊;
(3.1)、計算第p個圖像區對應第t個文本中第q個單詞的交叉注意力權重Spq:
其中,||·||表示L2范數操作;泛指其中的一種特征;泛指其中的一種特征;上標T表示轉置;
(3.2)、基于注意力交叉權重,計算第p個圖像區對應第t個文本中第q個單詞的權重apq;
(3.3)、將第p個圖像區對應第t個文本中所有單詞按照權重求和,得到第p個圖像區域對應的加權求和后單詞特征ap;
其中,為Spq的歸一化值,λ為溫度超參數;
(3.4)、計算第p個圖像區的特征vp與對應的加權求和后單詞特征ap的余弦相似度cos(vp,ap);
(3.5)、將低、中、高三個階段中同一階段內的所有圖像區域與對應的加權求和后單詞特征的余弦相似度通過相加的方式得到各個階段的相似度,分別記為Slow,Smiddle,Shigh
其中,S∈Slow,Smiddle,Shigh;
(3.6)、將各個階段的相似度相加,作為圖像I與第t個文本的檢索值;
(4)、獲取圖像文本檢索結果;
遍歷檢索文本庫中所有的文本,獲取圖像I與每個文本的檢索值,將所有檢索值從大到小排列,再將排列第一的文本作為檢索結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210968147.4/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





