[發(fā)明專利]基于雙向注意力的圖像文本互檢索方法有效
| 申請?zhí)枺?/td> | 201910626468.4 | 申請日: | 2019-07-11 |
| 公開(公告)號: | CN110516085B | 公開(公告)日: | 2022-05-17 |
| 發(fā)明(設(shè)計)人: | 劉靜;石雨佳 | 申請(專利權(quán))人: | 西安電子科技大學(xué) |
| 主分類號: | G06F16/483 | 分類號: | G06F16/483;G06V10/74;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 陜西電子工業(yè)專利中心 61205 | 代理人: | 田文英;王品華 |
| 地址: | 710071 陜*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 雙向 注意力 圖像 文本 檢索 方法 | ||
1.一種基于雙向注意力的圖像文本互檢索方法,其特征在于,利用雙向注意力對電子文本和自然圖像的不同模態(tài)特征進(jìn)行交叉處理,利用交叉處理后的聯(lián)合特征重構(gòu)電子文本特征和自然圖像特征,該方法的具體步驟包括如下:
(1)生成訓(xùn)練集和測試集:
從數(shù)據(jù)集中任意選取圖像及其對應(yīng)的文本對共25000個,將其中15000個圖像文本對組成訓(xùn)練集,10000個圖像文本對組成測試集;
(2)利用神經(jīng)網(wǎng)絡(luò)提取每個圖像文本對的特征:
(2a)搭建一個14層的神經(jīng)網(wǎng)絡(luò)、設(shè)置并訓(xùn)練好每層參數(shù);
(2b)將訓(xùn)練集輸入到訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)中,輸出15000個圖像文本對,每個圖像文本對中的圖像含有100個圖像特征,文本含有100個文本特征;
(3)從所有輸出圖像文本對中依次選取一個未選取過的圖像;
(4)從所有圖像文本對中隨機(jī)選取一個未選過的文本;
(5)構(gòu)建一個雙向注意力模塊:
(5a)按照下式,計算所選圖像的每個圖像特征與所選文本的每個文本特征的 特征相似度:
其中,Ri,k表示所選圖像中第k個圖像特征與所選文本中第i個文本特征的相似度,tanh表示雙曲正切操作,yi表示所選文本的第i個文本特征,T表示轉(zhuǎn)置操作,A表示隨機(jī)生成的15000×15000維的注意力矩陣,xk表示所選圖像的第k個圖像特征;
(5b)構(gòu)建一個由每個圖像特征與每個所選文本的所有文本特征的相似度組成的圖像特征相似度向量,對每個圖像相似度向量進(jìn)行均值池化操作;構(gòu)建一個由每個文本特征與每個所選圖像的所有圖像特征的相似度組成的文本特征相似度向量,對每個文本相似度向量進(jìn)行均值池化操作;
(5c)按照下述的軟注意力公式,計算所選圖像的每個圖像特征在所有圖像特征中的重要程度:
其中,ak表示所選圖像的第k個圖像特征在所有圖像特征中的重要程度,exp表示以自然常數(shù)e為底的指數(shù)操作,uk表示均值池化操作后的第k個圖像特征相似度,∑表示求和操作,n表示所選圖像的圖像特征相似度總數(shù),ud表示均值池化操作后的第d個圖像特征相似度,d的取值范圍為[1,n];
(5d)按照下述的軟注意力公式,計算所選文本的每個文本特征在所有文本特征中的重要程度:
其中,bi表示所選文本的第i個文本特征在所有文本特征中的重要程度,ti表示均值池化操作后的第i個文本特征相似度,l表示所選文本的文本特征相似度總數(shù),tm表示均值池化操作后的第m個文本特征相似度,m的取值范圍為[1,l];
(6)重構(gòu)所選圖像特征與所選文本特征:
(6a)將每個圖像特征的重要程度與所選圖像的對應(yīng)圖像特征相乘,得到重構(gòu)后的圖像特征;
(6b)將每個文本特征重要程度與所選文本的對應(yīng)文本特征相乘,得到重構(gòu)后的文本特征;
(7)判斷是否選完所有圖像文本對中的文本,若是,則執(zhí)行步驟(8),否則,執(zhí)行步驟(4);
(8)判斷是否選完所有圖像文本對中的圖像,若是,則執(zhí)行步驟(9),否則,執(zhí)行步驟(3);
(9)計算匹配概率:
(9a)利用soft-max公式,計算每個圖像與所有圖像文本對中的每個文本的匹配概率;
(9b)利用soft-max公式,計算每個文本與所有圖像文本對中的每個圖像的匹配概率;
(10)利用交叉熵訓(xùn)練注意力矩陣:
(10a)利用交叉熵公式,計算每個圖像與每個文本匹配概率與每個圖像與每個文本的真實匹配概率之間的交叉熵;
(10b)采用梯度下降公式,用每次迭代獲得的交叉熵更新注意力矩陣元素值,直到交叉熵小于0.000001為止,得到訓(xùn)練好的注意力矩陣;
(11)完成圖像文本互檢索:
(11a)將測試集中所有圖像文本對輸入到步驟(2)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中,得到測試集中的所有圖像文本對的特征;
(11b)用訓(xùn)練好的注意力矩陣與步驟(11a)所有圖像文本對中的每個圖像特征和每個文本特征相乘,接著按照如(5b)至(5d)的步驟,分別得到每個圖像特征和每個文本特征在所有圖像特征和文本特征中的重要程度,利用重要程度重構(gòu)所有圖像與文本特征,計算重構(gòu)后的每個圖像和每個文本的匹配概率;
(11c)從所有重構(gòu)后的匹配概率中,選取最大的匹配概率,將其對應(yīng)的圖像文本對作為檢索結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安電子科技大學(xué),未經(jīng)西安電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910626468.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





