[發(fā)明專利]一種自適應(yīng)屬性和實(shí)例掩碼嵌入圖的文本到圖像生成方法在審

申請?zhí)枺?/td>	202010139353.5	申請日：	2020-03-03
公開（公告）號：	CN111340907A	公開（公告）日：	2020-06-26
發(fā)明（設(shè)計(jì)）人：	倪建成;張素素	申請（專利權(quán)）人：	曲阜師范大學(xué)
主分類號：	G06T11/00	分類號：	G06T11/00;G06T9/00;G06F40/126;G06F40/30;G06F16/35;G06N3/04
代理公司：	溫州名創(chuàng)知識產(chǎn)權(quán)代理有限公司 33258	代理人：	陳加利
地址：	273165 山***	國省代碼：	山東;37
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種自適應(yīng) 屬性實(shí)例掩碼嵌入文本圖像生成方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明提供一種自適應(yīng)屬性和實(shí)例掩碼嵌入圖的文本到圖像生成方法，包括根據(jù)輸入的文本使用邊框回歸網(wǎng)絡(luò)來獲得64×64、128×128及256×256語義布局；根據(jù)64×64語義布局、句嵌入向量和隨機(jī)噪聲，在低分辨率生成器中生成粗粒度的圖像潛在特征及低分辨率64×64圖像；根據(jù)128×128語義布局，在第一高分辨率生成器中形成像素級特征向量；根據(jù)128×128語義布局、粗粒度的圖像潛在特征及像素級特征向量，在第一高分辨率生成器中生成第一細(xì)粒度的圖像潛在特征及高分辨率128×128圖像；根據(jù)256×256語義布局、第一細(xì)粒度的圖像潛在特征及像素級特征向量，在第二高分辨率生成器中生成高分辨率的256×256圖像。實(shí)施本發(fā)明，讓圖像不僅分辨率高、滿足實(shí)例形狀約束，而且屬性特征與描述一致。

技術(shù)領(lǐng)域

本發(fā)明涉及計(jì)算機(jī)視覺圖像生成技術(shù)領(lǐng)域，尤其涉及一種自適應(yīng)屬性和實(shí)例掩碼嵌入圖的文本到圖像生成方法。

背景技術(shù)

近年來，深度學(xué)習(xí)在文本-圖像生成領(lǐng)域已取得較好的成果。生成對抗網(wǎng)絡(luò)(GAN)作為最常用的生成模型，聯(lián)合學(xué)習(xí)生成器和判別器；其中，生成器主要用于學(xué)習(xí)像素分布并生成逼真的圖像，而判別器需鑒別生成圖像的真假，兩者不斷對抗更新以達(dá)到最終的納什平衡。

生成對抗網(wǎng)絡(luò)有多種輸入類型，如隨機(jī)噪聲、語義分割圖、素描圖、圖像對、場景圖、文本等；其中，文本是最簡單且最易操作的輸入形式，越來越多的研究人員也趨向于文本-圖像生成，但當(dāng)文本描述中存在復(fù)雜多樣的對象和場景時(shí)，由于缺乏語義布局作為中間表示，導(dǎo)致生成圖像的質(zhì)量會(huì)急劇下降。

現(xiàn)有的文本-圖像生成技術(shù)使用多級生成策略，對初步生成的低分辨率圖像逐步優(yōu)化來合成高分辨率圖像。此外，邊框回歸網(wǎng)絡(luò)可根據(jù)輸入的嵌入向量預(yù)測目標(biāo)的位置和大小，已被用于Fast R-CNN中的目標(biāo)檢測，定位的目標(biāo)可用四元組(x,y,w,h)表示其坐標(biāo)和寬高。

但是，現(xiàn)有的文本-圖像生成方法的輸入大多是句向量，缺乏詞級別的細(xì)粒度信息，合成的圖像缺少實(shí)例級別的紋理特征。此外，在圖像生成過程中，生成器容易忽略不同實(shí)例之間的空間交互關(guān)系，缺乏實(shí)例形狀掩碼約束，合成的圖像出現(xiàn)了實(shí)例形狀不合理，像素重疊和遮擋等問題；同時(shí)，句子級別的判別器只能提供粗粒度的訓(xùn)練反饋信息，難以判別詞級的實(shí)例視覺屬性，導(dǎo)致生成模型傾向于合成對象的“平均”模式，而非最相關(guān)的屬性特征，無法合成真實(shí)而準(zhǔn)確的高分辨率圖像。

因此，亟需一種新的文本-圖像生成方法，能克服整個(gè)句子的復(fù)雜性和歧義性，使生成器能學(xué)習(xí)到實(shí)例的細(xì)粒度特征以及判別器能提供準(zhǔn)確的屬性反饋信息，讓生成的圖像不僅分辨率高、滿足實(shí)例形狀約束，而且屬性特征與描述一致。

發(fā)明內(nèi)容

本發(fā)明實(shí)施例所要解決的技術(shù)問題在于，提供一種自適應(yīng)屬性和實(shí)例掩碼嵌入圖的文本到圖像生成方法，能克服整個(gè)句子的復(fù)雜性和歧義性，使生成器能學(xué)習(xí)到實(shí)例的細(xì)粒度特征以及判別器能提供準(zhǔn)確的屬性反饋信息，讓生成的圖像不僅分辨率高、滿足實(shí)例形狀約束，而且屬性特征與描述一致。

為了解決上述技術(shù)問題，本發(fā)明實(shí)施例提供了一種自適應(yīng)屬性和實(shí)例掩碼嵌入圖的文本到圖像生成方法，所述方法包括以下步驟：

根據(jù)輸入的文本，使用預(yù)設(shè)的編碼器-解碼器結(jié)構(gòu)的邊框回歸網(wǎng)絡(luò)來獲得所述文本中每個(gè)單詞對應(yīng)的實(shí)例邊界框的位置和標(biāo)簽信息，并整合所有實(shí)例生成的邊界框的位置和標(biāo)簽信息，得到64×64、128×128及256×256語義布局；

根據(jù)64×64語義布局、句嵌入向量和隨機(jī)噪聲，在低分辨率生成器中獲得粗粒度的圖像潛在特征以及根據(jù)所述粗粒度的圖像潛在特征對應(yīng)生成的低分辨率的64×64圖像；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于曲阜師范大學(xué)，未經(jīng)曲阜師范大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010139353.5/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種電機(jī)過溫保護(hù)方法、裝置以及設(shè)備和存儲介質(zhì)
下一篇：一種芯片封裝設(shè)備

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06T 一般的圖像數(shù)據(jù)處理或產(chǎn)生
G06T11-00 2D［二維］圖像的生成
G06T11-20 .根據(jù)基本元素繪圖，例如：直線或圓
G06T11-40 .通過添加表面特征填充平面，例如：色彩或紋理
G06T11-60 .編輯圖形和文本，組合圖形或文本
G06T11-80 .使用諸如鼠標(biāo)、光筆、鍵盤上的方向鍵等手輸入設(shè)備建立或修改手繪或手寫圖像

免登錄下載普通用戶下載升級VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】