[發明專利]基于生成式對抗網絡的文本轉換圖像的方法及相關設備在審
| 申請號: | 202111090312.2 | 申請日: | 2021-09-17 |
| 公開(公告)號: | CN113537416A | 公開(公告)日: | 2021-10-22 |
| 發明(設計)人: | 楊巨成;姚彤;劉建征;張偉;許能華;閆瀟寧 | 申請(專利權)人: | 深圳市安軟科技股份有限公司;天津科技大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 深圳君信誠知識產權代理事務所(普通合伙) 44636 | 代理人: | 劉偉 |
| 地址: | 518000 廣東省深圳市龍華新區龍華*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 生成 對抗 網絡 文本 轉換 圖像 方法 相關 設備 | ||
1.一種基于生成式對抗網絡的文本轉換圖像的方法,其特征在于,包括以下步驟:
獲取一段圖像的文本描述;
將所述文本描述通過預設的第一編碼器轉化為多維向量編碼;
將所述多維向量編碼與初始化的噪音向量進行拼接得到第一輸入向量;
將所述第一輸入向量輸入預設的第一生成網絡,生成低分辨率圖像;
將所述低分辨率圖像與所述多維向量編碼進行融合,得到第二輸入向量;
將所述第二輸入向量輸入預設的第二生成網絡,生成高分辨率圖像;
所述第一生成網絡、第二生成網絡為預訓練好的網絡。
2.如權利要求1所述的基于生成式對抗網絡的文本轉換圖像的方法,其特征在于,所述將所述低分辨率圖像與所述多維向量編碼進行融合,得到第二輸入向量的步驟前還包括:
將第一生成網絡生成的低分辨率圖像與真實圖像放入預設的第一判別網絡進行判斷真假,輸出結果為真的低分辨率圖像,所述第一判別網絡為預訓練好的網絡;
所述將所述第二輸入向量輸入預設的第二生成網絡,生成高分辨率圖像的步驟之后還包括:
將第二生成網絡生成的高分辨率圖像輸入到預設的第二判別網絡進行判斷真假,輸出結果為真的高分辨率圖像,所述第二判別網絡為預訓練好的網絡。
3.如權利要求2所述的基于生成式對抗網絡的文本轉換圖像的方法,其特征在于,所述第一生成網絡、第二生成網絡的預訓練使用生成式對抗網絡的損失函數,采用反向傳播算法,使用梯度下降優化參數。
4.如權利要求3所述的基于生成式對抗網絡的文本轉換圖像的方法,其特征在于,所述第一生成網絡、第二生成網絡的結構相同,所述損失函數為:
其中真實圖像和文本描述來自真實數據分布Pdata,是從給定分布隨機采樣的噪聲向量,、分別為判別器、生成器,為基于所述文本描述的多維向量編碼,通過最大化最小化來訓練所述第一生成網絡、第二生成網絡。
5.如權利要求3所述的基于生成式對抗網絡的文本轉換圖像的方法,其特征在于,所述梯度下降優化參數算法為Adam優化算法,學習率為0.001。
6.如權利要求2所述的基于生成式對抗網絡的文本轉換圖像的方法,其特征在于,所述第一編碼器包括2-4個編碼塊,每個編碼塊包括一個第一層歸一化層、1個多頭注意力層、1個第二層歸一化層、以及2-4個全連接層;其中,所述多頭注意力層為4-8個頭,所述多頭注意力層的輸出與所述第一層歸一化層的輸入對應元素相加,再與所述第二層歸一化層相加,再連接所述2-4個全連接層,所述全連接層的輸出與所述第二層歸一化層的輸入對應元素相加。
7.如權利要求1所述的基于生成式對抗網絡的文本轉換圖像的方法,其特征在于,所述初始化的噪音向量的值由隨機函數生成的與所述文本描述編碼同維度的方差為1、期望為0的正態分布數值。
8.如權利要求2所述的基于生成式對抗網絡的文本轉換圖像的方法,其特征在于,在將所述第一輸入向量輸入預設的第一生成網絡的步驟前,還包括:
將所述第一輸入向量輸入到多層感知機;
將所述多層感知機的輸出平均劃分為個分塊,在每個分塊后面拼接位置信息,作為所述第一生成網絡的輸入。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市安軟科技股份有限公司;天津科技大學,未經深圳市安軟科技股份有限公司;天津科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111090312.2/1.html,轉載請聲明來源鉆瓜專利網。





