[發(fā)明專利]一種文本生成圖像方法及裝置有效
| 申請?zhí)枺?/td> | 201811336849.0 | 申請日: | 2018-11-12 |
| 公開(公告)號: | CN109543159B | 公開(公告)日: | 2023-03-24 |
| 發(fā)明(設(shè)計)人: | 周德宇;胡名起;蔣明敏 | 申請(專利權(quán))人: | 南京德磐信息科技有限公司 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06T9/00 |
| 代理公司: | 北京德崇智捷知識產(chǎn)權(quán)代理有限公司 11467 | 代理人: | 王斌 |
| 地址: | 211189 江蘇省南京市棲霞*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 生成 圖像 方法 裝置 | ||
1.一種文本生成圖像方法,其特征在于,包括以下步驟:
步驟1,對描述圖像的自然語言文本進行編碼,得到文本語義嵌入表示;
步驟2,將步驟1得到的文本語義嵌入表示與隨機噪聲進行混合,采用循環(huán)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)碼器讀取文本語義嵌入表示、隨機噪聲以及循環(huán)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)碼器上一步的隱態(tài),輸出每步的對象隱編碼;在隱編碼生成過程中,通過注意力機制,在每步對文本語義嵌入的不同部分賦予不同的權(quán)重;
步驟3,對步驟2輸出的每步對象隱編碼進行解碼生成步圖像,最后融合所有步圖像得到生成圖像;
步驟4,將生成圖像和真實圖像進行對抗訓練;
步驟3包括:
將描述圖像的自然語言文本輸入到文本編碼器,得到文本語義嵌入表示;
將文本嵌入表示和高斯噪聲混合,輸入到生成器,經(jīng)過逐步轉(zhuǎn)碼和解碼,生成圖像前景與背景像素集合,最后融合前景與背景信息得到生成圖像;文本語義嵌入表示和高斯噪聲z的混合方式采用直接連接的方式,即融合圖像前景與背景像素的方式是像素值取平均或?qū)D像的前景與背景像素輸入卷積神經(jīng)網(wǎng)絡(luò)得到最后生成的圖像;圖像解碼器由反卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,輸入對象隱編碼,輸出生成的圖像;步驟4包括:
將生成圖像和真實圖像輸入到判別器,在隱層聯(lián)合文本的嵌入表示進行對抗訓練;被輸入圖像經(jīng)過下采樣后得到的圖像隱表示和文本語義嵌入的聯(lián)合方式采用如步驟3的直接連接,通過全連接神經(jīng)網(wǎng)絡(luò)得到判別器輸出;判別器的下采樣網(wǎng)絡(luò)采用卷積神經(jīng)網(wǎng)絡(luò),輸入生成的圖像與真實的圖像,以及其對應的文本條件,輸出對圖像真實程度和與文本匹配程度的評分;
損失函數(shù)采用帶梯度罰項的Wasserstein loss:
其中,D(x)表示判別器對輸入x的評分,pr表示數(shù)據(jù)的真實分布,pg表示生成數(shù)據(jù)的分布,λ為平衡系數(shù)。
2.根據(jù)權(quán)利要求1所述的文本生成圖像方法,其特征在于,所述步驟1中,對描述圖像的自然語言文本進行編碼的方法為:
對自然語言文本進行特征提取,得到的長度為d的詞序列p=(w1,w2,…,wd),其中每個單詞wi采用預訓練的詞向量進行表示,i=1~d;
由得到的詞向量對自然語言文本進行編碼。
3.根據(jù)權(quán)利要求1所述的文本生成圖像方法,其特征在于,提取的自然語言文本的特征包括高層語義特征以及文本描述的視覺特征,其中高層語義特征包括實體和關(guān)系,視覺特征包括顏色和尺寸。
4.一種用于實現(xiàn)權(quán)利要求1-3任一所述文本生成圖像方法的文本生成圖像裝置,其特征在于,包括:
一文本編碼器,對輸入的描述圖像的自然語言文本進行編碼,得到文本語義嵌入表示;
一生成器,包括循環(huán)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)碼器、圖像解碼器以及圖像融合器,所述循環(huán)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)碼器用于讀取文本語義嵌入和轉(zhuǎn)碼器上一步的隱態(tài),輸出每步的對象隱編碼;所述圖像解碼器對輸入的每步對象隱編碼進行解碼生成步圖像;所述圖像融合器對所述圖像解碼器生產(chǎn)的所有步圖像進行圖像融合得到生成圖像;
一判別器,由下采樣網(wǎng)絡(luò)構(gòu)成,對輸入的生成圖像和真實圖像,在隱層聯(lián)合文本語義嵌入表示進行對抗訓練。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京德磐信息科技有限公司,未經(jīng)南京德磐信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811336849.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





