[發明專利]基于多層次注意力機制的文本修改圖片網絡模型訓練方法有效
| 申請號: | 202010639352.7 | 申請日: | 2020-07-06 |
| 公開(公告)號: | CN111898456B | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 宋井寬;葉芊;高聯麗 | 申請(專利權)人: | 貴州大學;電子科技大學 |
| 主分類號: | G06V30/413 | 分類號: | G06V30/413;G06V10/44;G06K9/62;G06N3/04;G06N3/08;G06V10/80 |
| 代理公司: | 北京正華智誠專利代理事務所(普通合伙) 11870 | 代理人: | 楊浩林 |
| 地址: | 55000*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多層次 注意力 機制 文本 修改 圖片 網絡 模型 訓練 方法 | ||
1.一種基于多層次注意力機制的文本修改圖片網絡模型訓練方法,其特征在于,在模型訓練的每個epoch中,均包括:
獲取當前原始訓練圖片及其文本信息,以及與其圖片內容同類的隨機文本信息;
提取當前原始訓練圖片的視覺屬性特征,以及所述隨機文本信息的全局特征和局部特征;
利用全局注意力網絡對所述隨機文本信息的全局特征和當前原始訓練圖片的視覺屬性特征進行融合,得到融合特征Ⅰ;
對所述融合特征Ⅰ進行上采樣得到特征矩陣Ⅰ,將所述隨機文本信息的局部特征和所述特征矩陣Ⅰ輸入局部注意力網絡,輸出得到融合特征Ⅱ;
將所述融合特征Ⅱ和特征矩陣Ⅰ結合后,通過殘差塊輸入到上采樣網絡,輸出得到修改后的圖片Ⅰ;
將所述修改后的圖片Ⅰ和隨機文本信息作為一組訓練數據,當前原始訓練圖片及其文本信息作為一組訓練數據,當前原始訓練圖片和所述隨機文本信息作為一組訓練數據;
利用三組所述訓練數據對判別器和生成器進行訓練,其中,在生成器的訓練過程中,其損失計算過程包括cycleloss的計算;
訓練后的判別器和生成器組成當前epoch訓練好的文本修改圖片網絡模型。
2.根據權利要求1所述基于多層次注意力機制的文本修改圖片網絡模型訓練方法,其特征在于,所述隨機文本信息,是在與當前原始訓練圖片同類的圖片集的文本信息中隨機選擇得到。
3.根據權利要求1所述基于多層次注意力機制的文本修改圖片網絡模型訓練方法,其特征在于,獲取所述融合特征Ⅰ的方法具體為:首先將隨機文本信息的全局特征復制成16*16*128的矩陣;然后通過卷積神經網絡將所述16*16*128的矩陣變換為16*16*512的矩陣;最后將所述16*16*512的矩陣和當前原始訓練圖片的視覺屬性特征輸入所述全局注意力網絡,并輸出得到所述融合特征Ⅰ。
4.根據權利要求3所述基于多層次注意力機制的文本修改圖片網絡模型訓練方法,其特征在于,所述融合特征Ⅰ的計算公式如下:
Fi=P(Ftext⊙Wi⊙Fi-1)
Wi=SoftMax(Ftext⊙Fi-1)
其中,Fi表示第i個網絡輸出的結果,Ftext表示所述隨機文本信息的全局特征,Wi是所述隨機文本信息的全局特征,與當前原始訓練圖片的視覺屬性特征的權值矩陣,P是一層卷積神經網絡。
5.根據權利要求4所述基于多層次注意力機制的文本修改圖片網絡模型訓練方法,其特征在于,所述融合特征Ⅱ的計算公式如下:
其中,Fattn表示融合特征Ⅱ,Fword表示所述隨機文本信息的全局特征,k代表隨機文本信息的第k個詞,L表示局部特征所屬文本信息的長度,βk代表第k個詞對于視覺屬性修改的重要程度,h0表示特征矩陣Ⅰ。
6.根據權利要求1所述基于多層次注意力機制的文本修改圖片網絡模型訓練方法,其特征在于,所述cycle loss的計算包括以下步驟:
S1、提取修改后的圖片Ⅰ的視覺屬性特征;
S2、提取當前原始訓練圖片的文本信息的全局特征和局部特征;
S3、利用全局注意力網絡對當前原始訓練圖片的文本信息的全局特征,和修改后的圖片Ⅰ的視覺屬性特征進行融合,得到融合特征Ⅲ;
S4、對所述融合特征Ⅲ進行上采樣得到特征矩陣Ⅱ,將當前原始訓練圖片的文本信息的局部特征,和所述特征矩陣Ⅱ輸入局部注意力網絡,輸出得到融合特征Ⅳ;
S5、將所述融合特征Ⅳ和特征矩陣Ⅱ結合后,通過殘差塊輸入到上采樣網絡,輸出得到修改后的圖片Ⅱ;
S6、根據修改后的圖片Ⅱ和當前原始訓練圖片計算得到cycleloss。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州大學;電子科技大學,未經貴州大學;電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010639352.7/1.html,轉載請聲明來源鉆瓜專利網。





