[發明專利]一種基于StackGAN網絡的文本生成圖像方法在審
| 申請號: | 202010735650.6 | 申請日: | 2020-07-28 |
| 公開(公告)號: | CN111968193A | 公開(公告)日: | 2020-11-20 |
| 發明(設計)人: | 李云紅;朱綿云;聶夢軒;穆興;賈凱莉;姚蘭;羅雪敏 | 申請(專利權)人: | 西安工程大學 |
| 主分類號: | G06T11/00 | 分類號: | G06T11/00;G06T5/50;G06N3/04;G06N3/08;G06T5/00;G06T7/13;G06T7/90 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 弓長 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 stackgan 網絡 文本 生成 圖像 方法 | ||
1.一種基于StackGAN網絡的文本生成圖像方法,其特征在于,具體按照以下步驟實施:
步驟1,收集整理文本圖像數據集;
步驟2,將收集好的文本圖像數據集分成訓練集和測試集;
步驟3,構建StackGAN網絡文本生成圖像模型,該網絡模型分為兩個階段進行訓練,分別為低分辨率圖像生成階段和高分辨率圖像生成階段;低分辨率圖像生成階段包括一個生成器和一個判別器,高分辨率圖像生成階段包括一個生成器和兩個判別器;
步驟4,將訓練集圖像對應的文本描述與隨機噪聲向量作為StackGAN網絡模型第一階段即低分辨率圖像生成階段的輸入,輸出64×64低分辨率圖像,然后送入到第一階段的判別器中進行判別;
步驟5,將步驟4得到的64×64低分辨率圖像進行預處理;
步驟6,將步驟5得到的預處理圖像即最終的邊緣銳化圖像與訓練集圖像文本描述作為StackGAN網絡模型的第二階段即高分辨率圖像生成階段生成器的輸入,然后再結合圖像的類別與重構信息,在第二階段模型中進行訓練,輸出256×256高分辨率圖像,然后送入到第二階段的判別器中進行判別。
2.根據權利要求1所述的一種基于StackGAN網絡的文本生成圖像方法,其特征在于,所述步驟4中,具體過程如下:
步驟4.1,將訓練集圖像文本描述使用文本編碼器進行編碼,將文本描述表示為特征向量;
步驟4.2,采用條件增強模型產生一個附加條件變量c;具體是將文本特征向量通過全連接層得到均值向量和協方差矩陣然后從單位高斯分布N(0,1)中隨機采樣ε,得到最終條件變量c的表達式,如式(1)所示:
其中,c表示條件變量,表示文本特征向量,表示均值向量,表示協方差矩陣,⊙表示矩陣元素對應相乘;
步驟4.3,將步驟4.2得到的條件變量c與隨機噪聲向量z進行拼接,作為第一階段生成器的輸入,然后通過全連接及上采樣操作生成64×64像素的圖像;訓練中第一階段生成器的損失函數如式(2)所示;
式中,G1和D1分別為第一階段的生成器和判別器,LG1表示第一階段生成器的損失函數,E表示期望,z表示隨機噪聲向量,t表示文本描述,pz表示隨機噪聲分布,pdata表示真實數據分布,LkL表示正則化函數,λ是正則化參數,設置為1;
步驟4.4,將第一階段生成的64×64圖像結合64×64真實圖像和文本特征向量輸入到第一階段的判別器中進行判別,如果判別器輸出為1,則表示判別器輸入的是和文本匹配的真實圖像;如果判別器輸出為0,則表示判別器輸入的是生成的虛假圖像或是和文本不匹配的錯誤圖像;第一階段判別器的損失函數,如式(4)所示;
式中,LD1表示第一階段判別器的損失函數,I1表示第一階段64×64真實圖像。
3.根據權利要求2所述的一種基于StackGAN網絡的文本生成圖像方法,其特征在于,所述步驟4.3中,正則化函數,如式(3)所示;
式中,LkL表示正則化函數,DkL表示標準高斯分布和條件高斯分布之間的KL散度,表示獨立高斯分布,N(0,1)表示標準正態分布。
4.根據權利要求1所述的一種基于StackGAN網絡的文本生成圖像方法,其特征在于,所述步驟5中,預處理過程包括圖像灰度化、邊緣檢測及邊緣銳化,首先對圖像進行灰度化處理,其次對灰度化圖像進行邊緣檢測,最后對得到的邊緣檢測圖像進行邊緣銳化。
5.根據權利要求1所述的一種基于StackGAN網絡的文本生成圖像方法,其特征在于,所述步驟6中,具體過程如下:
步驟6.1,將第一階段生成的64×64圖像經過步驟5預處理后最終得到的圖像與訓練集圖像文本描述一起輸入到第二階段的生成器中,生成器通過一系列卷積下采樣操作后與文本特征向量進行拼接;
第二階段生成器的損失函數如式(5)所示;
式中,Lg2表示第二階段生成器的損失函數,E表示期望,s1表示第一階段生成圖像的預處理結果,PG1表示第一階段生成圖像結果分布,Ds為第二階段的真假判別器,G2為第二階段的生成器,λ0是一個平衡的正則化參數,設置為1;
步驟6.2,在步驟6.1的生成器中再加入圖像的分類損失函數、特征重構誤差函數及像素重構誤差函數輔助訓練,生成像素更好的256×256高分辨率圖像;
第二階段生成器圖像的分類損失函數與Cr做交叉熵如式(6)所示;
式中,LGc表示第二階段生成器的分類損失函數,H表示交叉熵函數,Dc表示類別判別器,If表示虛假圖像,Cr表示正確圖像類別;
第二階段生成器圖像特征重構誤差函數如式(7)所示;
式中,Lfeature表示圖像特征重構誤差函數,FD為神經網絡非線性函數,Ir表示真實圖像;
第二階段生成器圖像像素重構誤差函數如式(8)所示;
式中,Limage表示圖像像素重構誤差函數;
第二階段生成器的最終損失函數如式(9)所示;
LG2=Lg2+LGc+λ1Lfeature+λ2Limage (9);
式中,LG2表示第二階段生成器的最終損失函數,λ1和λ2為超參數,設置為1;
步驟6.3,將第二階段最終生成的256×256圖像結合256×256真實圖像和文本特征向量放入第二階段的判別器中進行判別,第一個判別器判斷輸入的圖像是真實圖像還是生成器生成的虛假圖像以及與文本是否匹配,第二個判別器判斷輸入圖像所屬類別;
當第一個判別器輸入和文本匹配的真實圖像Ir和文本特征向量時,與1作交叉熵;當第一個判別器輸入生成的虛假圖像If和文本特征向量時,則與0作交叉熵;當第一個判別器輸入和文本不匹配的錯誤圖像Iw和文本特征向量時,與0作交叉熵;
第二階段第一個判別器的損失函數如式(10)所示;
式中,LDs表示第二階段第一個判別器的損失函數,Ds表示真假判別器;
第二個判別器判斷輸入圖像的類別,當第二個判別器輸入和文本匹配的真實圖像Ir和文本特征向量時,正確圖像類別為Cr,與Cr做交叉熵;當第二個判別器輸入生成的虛假圖像If和文本特征向量時,虛假圖像的類別標簽也為Cr,則與Cr作交叉熵;當第二個判別器輸入和文本不匹配的錯誤圖像Iw和文本特征向量時,錯誤圖像的類別標簽為Cw,則與Cw作交叉熵;
第二階段第二個判別器的損失函數如式(11)所示;
式中,LDc表示第二階段第二個判別器的分類損失函數,Dc表示類別判別器;
第二階段判別器最終損失函數如式(12)所示;
LD2=LDs+LDc (12);
式中,LD2表示第二階段判別器的最終損失函數,LDs為第二階段第一個判別器判斷真假的損失函數,LDc為第二階段第二個判別器的分類損失函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安工程大學,未經西安工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010735650.6/1.html,轉載請聲明來源鉆瓜專利網。





