[發(fā)明專利]一種基于過渡空間映射的文本生成圖像方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201911022919.X | 申請日: | 2019-10-25 |
| 公開(公告)號: | CN110930469B | 公開(公告)日: | 2021-11-16 |
| 發(fā)明(設(shè)計)人: | 彭宇新;袁明寬 | 申請(專利權(quán))人: | 北京大學(xué) |
| 主分類號: | G06T11/00 | 分類號: | G06T11/00 |
| 代理公司: | 北京君尚知識產(chǎn)權(quán)代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 過渡 空間 映射 文本 生成 圖像 方法 系統(tǒng) | ||
本發(fā)明涉及一種基于過渡空間映射的文本生成圖像方法和系統(tǒng)。該方法包括以下步驟:1.利用數(shù)據(jù)庫中的圖像和文本,訓(xùn)練由一個過渡空間映射網(wǎng)絡(luò)和一個生成式對抗網(wǎng)絡(luò)級聯(lián)組成的文本生成圖像模型。2.對于用戶輸入的文本,利用訓(xùn)練好的文本生成圖像模型,生成與輸入文本內(nèi)容相符的圖像。與現(xiàn)有方法相比,本發(fā)明能夠顯著提高生成圖像的質(zhì)量,并增強(qiáng)生成圖像和輸入文本的語義一致性。
技術(shù)領(lǐng)域
本發(fā)明涉及圖像生成領(lǐng)域,具體涉及一種基于過渡空間映射的文本生成圖像方法和系統(tǒng)。
背景技術(shù)
近年來,隨著互聯(lián)網(wǎng)和多媒體技術(shù)的快速發(fā)展,多媒體數(shù)據(jù)的總量不斷增長,已經(jīng)成為大數(shù)據(jù)的主要內(nèi)容。人們通常會采用一些傳統(tǒng)的計算機(jī)視覺方法處理大量信息,例如常見的圖像分類。然而這些方法只能為用戶提供有限的信息,例如圖像分類只能提供類別標(biāo)簽這種信息量很少的內(nèi)容。因此具有數(shù)據(jù)生成能力的方法應(yīng)運(yùn)而生,它們不僅可以提供更多樣本,更好地滿足用戶需求;同時也可以進(jìn)行靈活創(chuàng)作,更加易于用戶使用。文本生成圖像是指,用戶提供一段文本描述,系統(tǒng)能夠自動生成內(nèi)容與文本描述一致的圖像。其大大提高了圖像信息獲取的靈活性和全面性,有著良好的發(fā)展前景和重要意義,例如:教育領(lǐng)域的概念啟蒙、文學(xué)領(lǐng)域的插畫生成、藝術(shù)領(lǐng)域的視覺創(chuàng)作等。
現(xiàn)有的文本生成圖像方法主要是基于生成式對抗網(wǎng)絡(luò)(Generative AdversarialNetworks,簡稱GAN)的深度模型方法。GAN是一種強(qiáng)大的神經(jīng)網(wǎng)絡(luò)模型,最初由Goodfellow等人提出。其通過對抗式訓(xùn)練的方式可以獲得強(qiáng)大的圖像樣本生成能力,因此被廣泛應(yīng)用于圖像生成的研究領(lǐng)域中。GAN由一個生成網(wǎng)絡(luò)與一個判別網(wǎng)絡(luò)組成。其中,生成網(wǎng)絡(luò)以隨機(jī)變量作為輸入來生成圖像,而判別網(wǎng)絡(luò)則對該圖像進(jìn)行解析,判斷該圖像的真實性。由于生成網(wǎng)絡(luò)希望生成的圖像內(nèi)容真實,判別網(wǎng)絡(luò)希望區(qū)分生成圖像與真實圖像。兩者形成對抗式訓(xùn)練,互相促進(jìn),最終使得生成網(wǎng)絡(luò)具有生成圖像的能力。
Reed等人提出了首個基于GAN的文本生成圖像方法——GAN-INT-CLS,其延續(xù)了條件式生成對抗網(wǎng)絡(luò)的思想,以文本向量作為條件輸入生成圖像。該方法首先提出了一種可以表達(dá)文本中視覺信息的特征,然后將這種特征作為輸入,利用一個生成網(wǎng)絡(luò)生成一幅圖像,再利用一個判別網(wǎng)絡(luò)對該圖像進(jìn)行解析,在真實圖像的參考下判斷該生成圖像與輸入文本的關(guān)聯(lián)性與真實性。通過對抗式訓(xùn)練,最終使得生成網(wǎng)絡(luò)具有文本生成圖像的能力。Zhang等人提出StackGAN方法,該方法將兩個GAN模型級聯(lián)在一起,從而實現(xiàn)更大尺寸圖像的生成。該方法首先建立了一個以文本向量為條件輸入的圖像生成模型,可以生成較小尺寸的圖像。之后將該生成模型的輸出作為另一個生成模型的輸入,用來生成較大尺寸的圖像。Xu等人提出AttnGAN方法,該方法引入注意力驅(qū)動模型和多階段精化模型,實現(xiàn)細(xì)粒度的文本生成圖像。通過注意力驅(qū)動模型,可以通過關(guān)注自然語言描述中的相關(guān)單詞來合成圖像的不同子區(qū)域的細(xì)粒度細(xì)節(jié);同時多階段精化模型可以迭代地提高生成圖像的視覺質(zhì)量,最終生成接近真實的圖像。
盡管以上基于生成式對抗網(wǎng)絡(luò)的方法可以取得一定效果,但由于其生成式網(wǎng)絡(luò)具有較多網(wǎng)絡(luò)層,訓(xùn)練僅依靠單一的對抗損失函數(shù)約束文本和圖像之間的一致性,忽略了文本和圖像之間大量的關(guān)聯(lián)信息,限制了生成圖像的效果。
發(fā)明內(nèi)容
本發(fā)明提出了一種基于過渡空間映射的文本生成圖像方法和系統(tǒng),能夠建立文本特征向量空間到過渡空間可解釋性特征表達(dá)的映射,再通過一個生成式對抗網(wǎng)絡(luò),以可解釋性特征表達(dá)作為條件約束生成內(nèi)容與文本一致的圖像。與現(xiàn)有方法相比,能夠顯著提高生成圖像的質(zhì)量,并增強(qiáng)生成圖像和輸入文本的語義一致性。
為達(dá)到以上目的,本發(fā)明采用的技術(shù)方案如下:
一種基于過渡空間映射的文本生成圖像方法,包括以下步驟:
(1)利用數(shù)據(jù)庫中的圖像和文本,訓(xùn)練由一個過渡空間映射網(wǎng)絡(luò)和一個生成式對抗網(wǎng)絡(luò)級聯(lián)組成的文本生成圖像模型;
(2)對于用戶輸入的文本,利用訓(xùn)練完成的文本生成圖像模型,生成與輸入文本內(nèi)容相符的圖像。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué),未經(jīng)北京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911022919.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





