[發明專利]一種基于多模態注意力的圖像標題自動生成方法有效
| 申請號: | 201810602775.4 | 申請日: | 2018-06-05 |
| 公開(公告)號: | CN108829677B | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 葛宏偉;閆澤杭 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F40/258 | 分類號: | G06F40/258;G06N3/04 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 溫福雪;侯明遠 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多模態 注意力 圖像 標題 自動 生成 方法 | ||
1.一種基于多模態注意力的圖像標題自動生成方法,其特征在于,步驟如下:
(1)圖像的預處理
使用選擇性搜索算法從原始圖像提取出包含物體的圖像區域,對大小不同的圖像區域進行放縮,同時對圖像像素值進行規整化處理;
(2)圖像特征的提取
選取ResNet作為圖像特征提取器;首先在ImageNet數據集上對ResNet進行預訓練,然后將一幅原始圖像中提取出的圖像區域分別輸入到ResNet進行前向傳播,最后把卷積神經網絡倒數第二個全連接層的輸出作為圖像區域的特征;
(3)句子特征的提取
首先利用帶視覺注意力的LSTM為原始圖像生成一個初步的標題,然后提取生成過程中該LSTM各時刻隱藏層的狀態作為句子特征,包括顯著性圖像特征的選擇、LSTM隱藏層的狀態更新以及新單詞的預測三個部分;
(3.1)顯著性圖像特征的選擇
在生成初步標題的過程中,使用視覺注意力機制,選擇出對預測下一時刻單詞有幫助的顯著性視覺特征;
視覺注意力機制根據t-1時刻隱藏層的狀態ht-1,計算t時刻的顯著性視覺特征vt;視覺注意力Av通過對圖像的各局部特征vi,(i=1,2,...,n)加權求和,得到顯著性視覺特征,計算公式如下:
其中,V表示圖像特征,表示第i個圖像特征在t時刻的注意力權重,且
根據t時刻之前隱藏層的狀態ht-1推斷出t時刻圖像各區域的顯著性程度;第i個圖像特征在t時刻的注意力權重通過使用圖像的局部特征vi,(i=1,2,...,n)以及t時刻之前的隱藏層的狀態ht-1計算出來,計算公式如下:
其中,Wh、Wv、b以及ωT是需要學習的參數;先使用Wh和Wv將ht-1和vi映射到同一個向量空間;再將Whht-1、Wvvi與偏置b相加,得到ht-1和vi的相關性向量;接著使用雙曲正切函數tanh對該相關性向量進行非線性激活,最后通過與ωT相乘,計算出相關性標量表示第i個圖像特征與t時刻之前的狀態信息ht-1的相關性分數,取值范圍是(-∞,+∞);使用softmax函數將的取值范圍壓縮在(0,1)之間;
(3.2)LSTM隱藏層的狀態更新
已知圖像特征V={v1,v2,...,vn}和t時刻之前的所有單詞{w0,w1,...,wt-1},則t時刻單詞的條件概率表示為P(wt|w0,w1,...,wt-1,V),使用LSTM對單詞的概率分布建模,其隱藏層的狀態更新由如下公式定義:
vt=Av(V,ht-1) (4)
it=σ(Wixwt+Wihht-1+Wivvt+bi) (5)
ft=σ(Wfxwt+Wfhht-1+Wfvvt+bf) (6)
ot=σ(Woxwt+Wohht-1+Wovvt+bo) (7)
其中,W*和b*表示需要學習的參數,σ表示sigmoid激活函數,表示元素級乘積,it、ft和ot分別表示輸入門、忘記門和輸出門,ct和ct-1分別表示本時刻和上一時刻的記憶單元,ht和ht-1分別表示本時刻和上一時刻的隱藏層狀態;
(3.3)新單詞的預測
softmax函數將ht進一步轉化為新單詞的概率分布P(wt|w0,w1,...,wt-1,V),計算公式如下:
P(wt|w0,w1,...,wt-1,V)=softmax(Wpht) (11)
其中,Wp是需要學習的參數;通過最小化整個句子的負對數似然函數Nonlikely()完成訓練后,提取LSTM所有時刻隱藏層的狀態H={h1,h2,...,hm}作為句子特征S={s1,s2,...,sm};
(4)最終圖像標題的生成
設計一個帶多模態注意力的LSTM為圖像生成最終的標題,包括顯著性多模態特征的選擇、LSTM隱藏層的狀態更新以及新單詞的預測三個部分;顯著性多模態特征包括圖像特征V與句子特征S;
(4.1)顯著性多模態特征的選擇
多模態注意力機制在視覺注意力機制的基礎上增加隱變量注意力模塊,根據上一時刻LSTM隱藏層的狀態關注顯著性句子特征;最終,顯著性句子特征與顯著性圖像特征通過連接,形成顯著性多模態特征;隱變量注意力Ah通過對句子特征S加權求和,得到t時刻關注的句子特征st,計算公式如下:
其中,表示第i個句子特征在t時刻的注意力權重,且
按照圖像特征在t時刻的注意力權重的計算方式,計算出句子特征在t時刻的注意力權重:
計算出顯著性句子特征st后,將它與顯著性視覺特征vt連接起來,作為多模態特征mt:
mt=Am(V,S)=concat(vt,st) (16)
其中,Am表示多模態注意力函數,concat表示將兩個向量連接為一個新向量;
(4.2)LSTM隱藏層的狀態更新
已知多模態特征M={V,S}和t時刻之前的所有單詞{w0,w1,...,wt-1},則t時刻單詞的條件概率表示為P(wt|w0,w1,...,wt-1,M);使用LSTM對單詞的概率分布建模,其隱藏層的狀態更新由以下公式定義:
mt=Am(V,S) (17)
it=σ(Wixwt+Wihht-1+Wimmt+bi) (18)
ft=σ(Wfxwt+Wfhht-1+Wfmmt+bf) (19)
ot=σ(Woxwt+Wohht-1+Wommt+bo) (20)
其中W*和b*表示需要學習的參數,σ表示sigmoid激活函數,表示元素級乘積,it、ft和ot分別表示輸入門、忘記門和輸出門,ct和ct-1分別表示本時刻和上一時刻的記憶單元,ht和ht-1分別表示本時刻和上一時刻的隱藏層狀態;
(4.3)新單詞的預測
softmax函數將ht進一步轉化得到新單詞的概率分布P(wt|w0,w1,...,wt-1,M),計算公式如下:
P(wt|w0,w1,...,wt-1,M)=softmax(Wpht) (24)
其中,Wp是需要學習的參數;通過最小化整個句子的負對數似然函數Nonlikely()完成訓練后,使用該LSTM生成最終的圖像標題;
(5)使用步驟(4)訓練的LSTM,通過集束搜索的方式保留每一時刻產生的多個候選單詞,并以候選單詞為出發點,繼續搜索直到搜索出句子結束標志。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810602775.4/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





