[發明專利]一種基于生成對抗網絡的圖像描述文本生成方法有效
| 申請號: | 202110206288.8 | 申請日: | 2021-02-24 |
| 公開(公告)號: | CN112818159B | 公開(公告)日: | 2022-10-18 |
| 發明(設計)人: | 陸佳妮;程帆 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06F40/126;G06F40/194;G06F40/242;G06N3/04;G06N3/08 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 楊宏泰 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 生成 對抗 網絡 圖像 描述 文本 方法 | ||
1.一種基于生成對抗網絡的圖像描述文本生成方法,其特征在于,包括以下步驟:
1)構建用以實現對圖像進行特征提取的編碼器,所述的編碼器為基于ResNet-101的Faster R-CNN模型,對于給定的一張圖像,編碼器從該圖像中檢測到的n個物體,將圖像編碼為n個目標區域的特征集合V={v1,…vi…,vn},其中,vi為目標選區i經過平均池化層后的特征向量;
2)對文本進行詞嵌入,并構建用以生成圖像描述文本的解碼器,解碼器由一個雙層的長短期記憶神經網絡模型和兩個注意力模塊組成,具體包括作為第一層的注意力生成LSTM層、作為第二層的語言生成LSTM層以及設置在注意力生成LSTM層與語言生成LSTM層之間的兩個用以生成視覺哨兵向量的自適應注意力模塊,
所述的注意力生成LSTM層的輸入向量包括圖像I的特征表示輸入詞wt的詞嵌入表示WeΠt以及語言生成LSTM層在t-1步的隱藏層狀態圖像I的特征表示為編碼器輸出的特征集合V中元素的均值,輸入詞wt的詞嵌入表示WeΠt為GloVe的模型在詞典Σ上的詞嵌入矩陣We和輸入詞wt的獨熱編碼Πt的乘積WeΠt,則有在第t步時,注意力生成LSTM層的隱藏層狀態更新公式為輸出為第一視覺哨兵向量第二視覺哨兵向量以及注意力生成LSTM層在第t步的隱藏層狀態
所述的自適應注意力模塊包括用以生成語境向量ct的第一自適應注意力模塊以及用以生成目標區域集合轉移信號δt的第二自適應注意力模塊,所述的第一自適應注意力模塊以第一視覺哨兵向量和特征集合為輸入,所述的第二自適應注意力模塊以第二視覺哨兵向量和特征集合為輸入,所述的特征集合vt為目標區域集合rt的特征集合,目標區域集合rt為集合R={r1,…,rN}中的指針在第t步指向的元素,指針由目標區域集合轉移信號δt控制,則目標區域集合rt的表達式為:
其中,k為解碼器的步數,第0步的目標區域集合轉移信號δ0默認值為0,N為集合R的大小,即包含目標區域集合ri的個數;
第一視覺哨兵向量由注意力生成LSTM層根據輸入向量前一步的隱藏層狀態以及此刻內部的存儲單元狀態計算得到,則有:
其中,Wic和Whc為模型需要學習的參數,⊙表示元素乘積,σ(·)表示Sigmoid函數,αt為在特征集合vt上的注意力權重分布,則有:
其中,為一個行向量,其與Wsr、Wsc、Wg均為模型需要學習的參數,是元素值全為1的向量,k為目標區域集合rt中目標區域的數量,語境向量ct表示此時模型應該關注的區域的特征表示,作為語言生成LSTM層的輸入之一;
第二自適應注意力模塊的輸入為特征集合vt以及注意力生成LSTM層輸出的視覺哨兵向量則有:
其中,Wiδ和Whδ為模型需要學習的權重參數,從一個目標區域集合轉移到另一個目標區域集合(δt=1)的概率被定義為在視覺哨兵向量和目標區域集合rt上注意到的概率,則有:
其中,為向量中的第i個元素,W*為模型需要學習的權重參數;
所述的語言生成LSTM層以注意力生成LSTM層當前的隱藏層狀態和語境向量ct為輸入,輸出為生成詞yt的概率分布,語言生成LSTM層在第t步的隱藏層狀態更新為:
則語言生成LSTM層輸出詞yt的概率分布為:
其中,y1:t-1表示y1,…,yt-1,Wo為模型需要學習的權重參數;
3)根據極大似然估計對由編碼器和解碼器共同構成的生成器進行預訓練,采用計劃采樣的方法對生成器進行預訓練,在訓練過程中,生成器的預訓練目標為最小化損失函數,生成器的損失函數LG(θ)由預測出的生成詞yt與真實的詞之間的交叉熵損失Lw(θ)以及預測出的目標區域集合轉移信號δi與真實值之間的交叉熵損失Lδ(θ)這兩部分構成,則有:
LG(θ)=λwLw(θ)+λδLδ(θ)
其中,λw、λδ為權重取值;
4)構建基于卷積神經網絡的判別器并進行訓練,以生成器生成的文本、真實的文本以及真實的圖像的拼接向量作為判別器的輸入,并引入高速網絡提升性能具體為:
所述的判別器基于卷積神經網絡,輸入為圖像I的特征表示和完整的描述語句{w1,…,wT}的詞嵌入的拼接ε,則有:
其中,為水平拼接操作,為編碼器輸出的特征集合V中元素的均值,為普通的詞嵌入矩陣,Πi為輸入詞wi的獨熱編碼,采用大小為d×l的卷積核后得到特征向量c=[c1,c2,…,cT-l+2],其中ci=ReLU(κ*εi:i+l-1+b),使用基于時間的最大池化層得到在最終的全連接層前加入高速網絡結構,則有:
其中,WT、WH為高速網絡的權重,bT、bH為高速網絡的偏差,⊙為分段乘積操作,最終,使用一個全連接層和Sigmoid操作得到概率值p,表示給定圖像I的情況下,一段話是正確文本的概率p,則有:
其中,Wo和bo分別為輸出層的權重和方差;
5)共同訓練生成器與判別器,具體包括以下步驟:
51)根據訓練集中給出的圖像I以及預訓練后的生成器Gθ生成的文本y1:T構成圖像文本對{(I,y1:T)};
52)采用預訓練后的判別器Dφ對生成的文本進行評分,并采用評分p∈[0,1]表示這些文本是真實文本的概率;
53)通過客觀指標評價模塊得到對生成的文本的評分s,所述的客觀指標評價模塊采用CIDEr-D作為客觀評價指標;
54)結合評分p和評分s給出獎勵值r=λ·p+(1-λ)·s,λ為可調的超參數;
55)采用REINFORCE強化學習算法更新生成器的參數θ,并采用獎勵值r作為收益,基線算法選擇用貪婪算法生成的文本序列,具體為:
解碼器根據當前模型的參數θ,與圖像特征、當前的文本特征、區域集合交互,生成下一個詞,采用步驟54)的獎勵值r作為收益,記作rC(·),強化學習優化的目標為最小化負的收益函數的期望,梯度函數為:
其中,為抽樣出的一個樣本,用于近似y1:T,為抽樣出的一個樣本,用于近似δ1:T,基線收益函數b選擇的是貪婪算法生成的文本序列的收益
56)根據訓練集中給出的圖像I,更新參數后的生成器Gθ重新生成文本y1:T;
57)根據訓練集中給出的圖像I,判別器的損失函數考慮三類文本,即與圖像I相關的正確真實文本生成器生成的文本y1:T以及與I無關的錯誤真實文本更新判別器的參數φ,判別器參數更新時的損失函數為:
58)返回步驟51),繼續下一次生成對抗網絡的過程,直到生成器和判別器收斂;
6)將待生成描述文本的測試圖像數據輸入訓練好的生成器中,輸出生成的描述文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110206288.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:吊具水平限位機構
- 下一篇:一種管道支吊架檢測裝置





