[發明專利]一種文本生成圖像方法及裝置有效
| 申請號: | 201811336849.0 | 申請日: | 2018-11-12 |
| 公開(公告)號: | CN109543159B | 公開(公告)日: | 2023-03-24 |
| 發明(設計)人: | 周德宇;胡名起;蔣明敏 | 申請(專利權)人: | 南京德磐信息科技有限公司 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06T9/00 |
| 代理公司: | 北京德崇智捷知識產權代理有限公司 11467 | 代理人: | 王斌 |
| 地址: | 211189 江蘇省南京市棲霞*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 生成 圖像 方法 裝置 | ||
本發明公開了一種文本生成圖像方法及裝置,其中,文本生成圖像方法包括以下步驟:步驟1,對描述圖像的自然語言文本進行編碼,得到文本語義嵌入表示;步驟2,將步驟1得到的文本語義嵌入表示與隨機噪聲進行混合,采用循環神經網絡轉碼器讀取文本語義嵌入表示、隨機噪聲以及循環神經網絡轉碼器上一步的隱態,輸出每步的對象隱編碼;步驟3,對步驟2輸出的每步對象隱編碼進行解碼生成步圖像,最后融合所有步圖像得到生成圖像;步驟4,將生成圖像和真實圖像進行對抗訓練。本發明生成器根據對象隱編碼,通過多步轉碼、解碼生成圖像前景與背景像素集合,并進行融合,生成高質量圖像,降低了直接生成圖像的訓練難度。
技術領域
本發明涉及深度學習生成模型技術領域,具體涉及基于文本描述的圖像生成方法及裝置。
背景技術
從自然語言文本描述生成照片級逼真的圖像是一個重要的問題,并具有廣泛的應用,例如照片編輯,計算機輔助設計等。
有很多方法可以跨圖像模態與文本模態學習生成模型。其中一個研究方向是學習以圖像為條件的文本生成模型,稱為“圖像字幕生成”。該類模型目前較為主流的處理流程是,首先抽取圖像特征并使用編碼器進行編碼,之后利用解碼器生成非結構化文本。
最近,生成對抗網絡(Generative Adversarial Network,簡稱GAN)在生成真實圖像方面取得了較好的效果。其變體conditional-GAN(簡稱cGAN)能夠根據給定的文本描述作為條件,生成與文本含義相關的圖像。然而由于GAN本身訓練的不穩定性,從文本描述生成高維逼真圖像仍是非常困難的,簡單的增加上采樣層只會導致訓練的不穩定以及生成無意義的圖像。
要解決根據文本描述生成對應圖像的問題,通常要解決兩個子問題:
1、如何學習一個能夠捕捉文本描述中的語義以及描述中的視覺細節的文本嵌入表示方法(文本編碼器);
2、如何結合1中的文本語義嵌入表示,通過GAN網絡生成一幅逼真的圖像(圖像生成器),使人類誤認為是真實的。
傳統的條件生成對抗網絡模型,一般首先從文本語義嵌入(聯合隨機噪聲)解碼,之后直接生成高維圖像,并通過判別器進行對抗訓練。但這種方式一定程度上增加了神經網絡的學習難度,并且從文本語義嵌入直接得到圖像,將導致圖像模糊,同時難以覆蓋文本的有效信息,這種缺陷在生成多對象圖像(圖像中包含多個實體)時會尤為明顯。
發明內容
本發明所要解決的技術問題是針對上述現有技術存在的不足,而提供了一種基于條件生成對抗網絡和循環神經網絡的根據文本描述生成圖像的方法,該方法能夠解決在文本描述中存在多個實體,并具有較為復雜關系情況下的圖像生成問題。
為解決上述技術問題,本發明采用的技術方案為:
一種文本生成圖像方法,其特征在于,包括以下步驟:
步驟1,對描述圖像的自然語言文本進行編碼,得到文本語義嵌入表示;
步驟2,將步驟1得到的文本語義嵌入表示與隨機噪聲進行混合,采用循環神經網絡轉碼器讀取文本語義嵌入表示、隨機噪聲以及循環神經網絡轉碼器上一步的隱態,輸出每步的對象隱編碼;
步驟3,對步驟2輸出的每步對象隱編碼進行解碼生成步圖像,最后融合所有步圖像得到生成圖像;
步驟4,將生成圖像和真實圖像進行對抗訓練。
所述步驟2中,每步輸出的對象隱編碼在生成過程中,通過注意力機制,在每步對文本語義嵌入表示的不同部分賦予不同的權重。
所述步驟2中,所述循環神經網絡轉碼器采用長短時記憶網絡;所述步驟3中,采用反卷積神經網絡對步驟2輸出的每步對象隱編碼進行解碼生成步圖像。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京德磐信息科技有限公司,未經南京德磐信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811336849.0/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





