[發(fā)明專利]一種基于生成對抗網(wǎng)絡(luò)的文本到圖像生成方法有效
| 申請?zhí)枺?/td> | 202010046540.9 | 申請日: | 2020-01-16 |
| 公開(公告)號: | CN111260740B | 公開(公告)日: | 2023-05-23 |
| 發(fā)明(設(shè)計)人: | 田安捷;陸璐 | 申請(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號: | G06T9/00 | 分類號: | G06T9/00 |
| 代理公司: | 廣州市華學(xué)知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 陳宏升 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 生成 對抗 網(wǎng)絡(luò) 文本 圖像 方法 | ||
本發(fā)明公開了一種基于生成對抗網(wǎng)絡(luò)的文本到圖像生成方法,包括以下步驟:1)向網(wǎng)絡(luò)中輸入一段文本描述,根據(jù)文本描述生成單詞特征矩陣和句子特征向量;2)向句子特征向量添加條件和噪聲向量,獲得圖像特征矩陣;3)計算圖像特征的單詞上下文矩陣;4)利用圖像特征矩陣和單詞上下文矩陣在生成對抗網(wǎng)絡(luò)中進行計算,分三個階段逐步生成越來越高分辨率的圖像;5)根據(jù)生成的圖像獲取本地圖像特征矩陣;6)評估生成圖像和文本描述的相似度,優(yōu)化下一次圖像生成。本發(fā)明的圖像生成方法,不僅可以保證生成圖像的內(nèi)容與文本描述的語義相一致,還可以保證生成圖像擁有更加優(yōu)化的圖像細節(jié),能夠有效提高生成圖像的分辨率,增加生成圖像的多樣性。
技術(shù)領(lǐng)域
本發(fā)明涉及圖像生成領(lǐng)域,特別涉及一種基于生成對抗網(wǎng)絡(luò)的文本到圖像生成方法。
背景技術(shù)
基于文本描述生成高分辨率和逼真的圖像是一項非常有意義的研究。在工業(yè)上,它不僅為計算機視覺領(lǐng)域的相關(guān)研究提供了對更深層次的視覺理解的幫助,而且具有廣泛的現(xiàn)實應(yīng)用。在學(xué)術(shù)界,它已成為近年來計算機視覺領(lǐng)域最受歡迎的研究方向之一,并取得了顯著成果。遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和生成對抗網(wǎng)絡(luò)(GAN)經(jīng)常被結(jié)合起來,用來基于自然語言描述生成真實的圖像。這些方法已經(jīng)能夠在某些領(lǐng)域產(chǎn)生令人滿意的結(jié)果,例如創(chuàng)建花朵或鳥類的精美圖像。
原始GAN模型包含一個生成器和一個判別器。生成器經(jīng)過優(yōu)化,可以產(chǎn)生向真實數(shù)據(jù)分布的樣本,從而達到欺騙判別器的目的。訓(xùn)練后的判別器可以將真實數(shù)據(jù)分布樣本與生成器生成的虛假樣本分開。生成器和判別器在相互博弈中達到最優(yōu),使生成的結(jié)果越來越好。
盡管已經(jīng)取得了令人印象深刻的結(jié)果,但是在訓(xùn)練條件生成對抗網(wǎng)絡(luò)時,仍然面臨許多挑戰(zhàn)。大多數(shù)模型傾向于只學(xué)習(xí)一種數(shù)據(jù)分布模式,這種模式易于崩潰,也就是說,生成器每次都會生成相同的圖像。盡管圖像清晰,但沒有變化。另一個主要挑戰(zhàn)是訓(xùn)練過程的不穩(wěn)定以及訓(xùn)練過程中獲得的損失不會收斂。此外,大多數(shù)現(xiàn)有的圖像生成方法都將關(guān)注的重點放在全局句子向量上,有用的細粒度圖像特征和單詞級文本信息都被忽視了。不僅如此,在評估生成的圖像時,不認為圖像的每個子區(qū)域?qū)φ麄€圖像有著不同的影響。這樣的方法一方面將阻礙高質(zhì)量圖像的生成,另一方面也會減少所生成圖像的多樣性。當(dāng)需要生成的場景和對象更加復(fù)雜時,此問題將變得更加嚴重。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于克服現(xiàn)有技術(shù)的缺點與不足,提供一種基于生成對抗網(wǎng)絡(luò)的文本到圖像生成方法,能夠達到既滿足生成圖像的內(nèi)容與文本描述的語義相一致,又使生成圖像擁有更加優(yōu)化的圖像細節(jié)的目的,有效提高生成圖像的分辨率,增加圖像的多樣性。
本發(fā)明的目的通過以下的技術(shù)方案實現(xiàn):
一種基于生成對抗網(wǎng)絡(luò)的文本到圖像生成方法,包括以下步驟:
1)向網(wǎng)絡(luò)中輸入一段文本描述,根據(jù)文本描述生成單詞特征矩陣和句子特征向量;
2)向句子特征向量添加條件和噪聲向量,獲得圖像特征矩陣;
3)計算圖像特征的單詞上下文矩陣;
4)利用圖像特征矩陣和單詞上下文矩陣在生成對抗網(wǎng)絡(luò)中進行計算,分三個階段逐步生成越來越高分辨率的圖像;
5)根據(jù)生成的圖像獲取本地圖像特征矩陣;
6)評估生成圖像和文本描述的相似度,優(yōu)化下一次圖像生成。
步驟1)中,所述文本描述是對一個以上對象的屬性進行的描述,通過一個雙向長短期記憶網(wǎng)絡(luò),將文本描述中每個單詞相對應(yīng)的兩個隱藏狀態(tài)串聯(lián)起來,以表示單詞的語義;所述屬性包括種類、大小、數(shù)量、形狀、位置;所述兩個隱藏狀態(tài),最后一個隱藏狀態(tài)所連接得到的是全局句子向量,其余隱藏狀態(tài)串聯(lián)得到的是單詞特征矩陣。
所述步驟2),具體如下:
2.1)向句子特征向量添加條件形成條件增強,以增強訓(xùn)練數(shù)據(jù)和避免過度擬合;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010046540.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





