[發(fā)明專利]一種自適應(yīng)屬性和實(shí)例掩碼嵌入圖的文本到圖像生成方法在審
| 申請?zhí)枺?/td> | 202010139353.5 | 申請日: | 2020-03-03 |
| 公開(公告)號: | CN111340907A | 公開(公告)日: | 2020-06-26 |
| 發(fā)明(設(shè)計(jì))人: | 倪建成;張素素 | 申請(專利權(quán))人: | 曲阜師范大學(xué) |
| 主分類號: | G06T11/00 | 分類號: | G06T11/00;G06T9/00;G06F40/126;G06F40/30;G06F16/35;G06N3/04 |
| 代理公司: | 溫州名創(chuàng)知識產(chǎn)權(quán)代理有限公司 33258 | 代理人: | 陳加利 |
| 地址: | 273165 山*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 自適應(yīng) 屬性 實(shí)例 掩碼 嵌入 文本 圖像 生成 方法 | ||
本發(fā)明提供一種自適應(yīng)屬性和實(shí)例掩碼嵌入圖的文本到圖像生成方法,包括根據(jù)輸入的文本使用邊框回歸網(wǎng)絡(luò)來獲得64×64、128×128及256×256語義布局;根據(jù)64×64語義布局、句嵌入向量和隨機(jī)噪聲,在低分辨率生成器中生成粗粒度的圖像潛在特征及低分辨率64×64圖像;根據(jù)128×128語義布局,在第一高分辨率生成器中形成像素級特征向量;根據(jù)128×128語義布局、粗粒度的圖像潛在特征及像素級特征向量,在第一高分辨率生成器中生成第一細(xì)粒度的圖像潛在特征及高分辨率128×128圖像;根據(jù)256×256語義布局、第一細(xì)粒度的圖像潛在特征及像素級特征向量,在第二高分辨率生成器中生成高分辨率的256×256圖像。實(shí)施本發(fā)明,讓圖像不僅分辨率高、滿足實(shí)例形狀約束,而且屬性特征與描述一致。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)視覺圖像生成技術(shù)領(lǐng)域,尤其涉及一種自適應(yīng)屬性和實(shí)例掩碼嵌入圖的文本到圖像生成方法。
背景技術(shù)
近年來,深度學(xué)習(xí)在文本-圖像生成領(lǐng)域已取得較好的成果。生成對抗網(wǎng)絡(luò)(GAN)作為最常用的生成模型,聯(lián)合學(xué)習(xí)生成器和判別器;其中,生成器主要用于學(xué)習(xí)像素分布并生成逼真的圖像,而判別器需鑒別生成圖像的真假,兩者不斷對抗更新以達(dá)到最終的納什平衡。
生成對抗網(wǎng)絡(luò)有多種輸入類型,如隨機(jī)噪聲、語義分割圖、素描圖、圖像對、場景圖、文本等;其中,文本是最簡單且最易操作的輸入形式,越來越多的研究人員也趨向于文本-圖像生成,但當(dāng)文本描述中存在復(fù)雜多樣的對象和場景時(shí),由于缺乏語義布局作為中間表示,導(dǎo)致生成圖像的質(zhì)量會(huì)急劇下降。
現(xiàn)有的文本-圖像生成技術(shù)使用多級生成策略,對初步生成的低分辨率圖像逐步優(yōu)化來合成高分辨率圖像。此外,邊框回歸網(wǎng)絡(luò)可根據(jù)輸入的嵌入向量預(yù)測目標(biāo)的位置和大小,已被用于Fast R-CNN中的目標(biāo)檢測,定位的目標(biāo)可用四元組(x,y,w,h)表示其坐標(biāo)和寬高。
但是,現(xiàn)有的文本-圖像生成方法的輸入大多是句向量,缺乏詞級別的細(xì)粒度信息,合成的圖像缺少實(shí)例級別的紋理特征。此外,在圖像生成過程中,生成器容易忽略不同實(shí)例之間的空間交互關(guān)系,缺乏實(shí)例形狀掩碼約束,合成的圖像出現(xiàn)了實(shí)例形狀不合理,像素重疊和遮擋等問題;同時(shí),句子級別的判別器只能提供粗粒度的訓(xùn)練反饋信息,難以判別詞級的實(shí)例視覺屬性,導(dǎo)致生成模型傾向于合成對象的“平均”模式,而非最相關(guān)的屬性特征,無法合成真實(shí)而準(zhǔn)確的高分辨率圖像。
因此,亟需一種新的文本-圖像生成方法,能克服整個(gè)句子的復(fù)雜性和歧義性,使生成器能學(xué)習(xí)到實(shí)例的細(xì)粒度特征以及判別器能提供準(zhǔn)確的屬性反饋信息,讓生成的圖像不僅分辨率高、滿足實(shí)例形狀約束,而且屬性特征與描述一致。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例所要解決的技術(shù)問題在于,提供一種自適應(yīng)屬性和實(shí)例掩碼嵌入圖的文本到圖像生成方法,能克服整個(gè)句子的復(fù)雜性和歧義性,使生成器能學(xué)習(xí)到實(shí)例的細(xì)粒度特征以及判別器能提供準(zhǔn)確的屬性反饋信息,讓生成的圖像不僅分辨率高、滿足實(shí)例形狀約束,而且屬性特征與描述一致。
為了解決上述技術(shù)問題,本發(fā)明實(shí)施例提供了一種自適應(yīng)屬性和實(shí)例掩碼嵌入圖的文本到圖像生成方法,所述方法包括以下步驟:
根據(jù)輸入的文本,使用預(yù)設(shè)的編碼器-解碼器結(jié)構(gòu)的邊框回歸網(wǎng)絡(luò)來獲得所述文本中每個(gè)單詞對應(yīng)的實(shí)例邊界框的位置和標(biāo)簽信息,并整合所有實(shí)例生成的邊界框的位置和標(biāo)簽信息,得到64×64、128×128及256×256語義布局;
根據(jù)64×64語義布局、句嵌入向量和隨機(jī)噪聲,在低分辨率生成器中獲得粗粒度的圖像潛在特征以及根據(jù)所述粗粒度的圖像潛在特征對應(yīng)生成的低分辨率的64×64圖像;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于曲阜師范大學(xué),未經(jīng)曲阜師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010139353.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 使用后向自適應(yīng)規(guī)則進(jìn)行整數(shù)數(shù)據(jù)的無損自適應(yīng)Golomb/Rice編碼和解碼
- 一種自適應(yīng)軟件UML建模及其形式化驗(yàn)證方法
- 媒體自適應(yīng)參數(shù)的調(diào)整方法、系統(tǒng)及相關(guān)設(shè)備
- 五自由度自適應(yīng)位姿調(diào)整平臺
- 采用自適應(yīng)機(jī)匣和自適應(yīng)風(fēng)扇的智能發(fā)動(dòng)機(jī)
- 一種自適應(yīng)樹木自動(dòng)涂白裝置
- 一種基于微服務(wù)的多層次自適應(yīng)方法
- 一種天然氣發(fā)動(dòng)機(jī)燃?xì)庾赃m應(yīng)控制方法及系統(tǒng)
- 一種中心自適應(yīng)的焊接跟蹤機(jī)頭
- 一種有砟軌道沉降自適應(yīng)式軌道系統(tǒng)
- 管理對象實(shí)例別名的方法和設(shè)備
- 軟件分發(fā)方法和裝置
- 虛擬資源分配方法、NFVO和系統(tǒng)
- 受管理的容器實(shí)例
- 具有連接到PMOSFET接頭的源極和漏極的阻抗元件的電路
- 一種實(shí)例分割方法、圖像處理設(shè)備及計(jì)算機(jī)可讀存儲介質(zhì)
- 一種處理應(yīng)用實(shí)例的方法及裝置
- 實(shí)例自適應(yīng)調(diào)整方法、裝置、計(jì)算機(jī)可讀存儲介質(zhì)及設(shè)備
- 預(yù)留實(shí)例預(yù)估方法、系統(tǒng)、存儲介質(zhì)及電子設(shè)備
- 一種行為識別方法、裝置及設(shè)備
- 一種集群系統(tǒng)中長碼掩碼的生成方法
- 正交掩碼生成裝置和方法及正交掩碼映射裝置和方法
- 打包數(shù)據(jù)操作掩碼比較處理器、方法、系統(tǒng)
- 用于獨(dú)立數(shù)據(jù)上遞歸計(jì)算的向量化的讀和寫掩碼更新指令
- 用于合并操作掩碼的未經(jīng)掩碼元素的裝置、方法、系統(tǒng)和制品
- 一種掩碼處理方法及客戶端
- DES軟件防DPA攻擊的方法及裝置
- 一種對數(shù)據(jù)庫信息進(jìn)行動(dòng)態(tài)掩碼的方法及系統(tǒng)
- 用于獨(dú)立數(shù)據(jù)上遞歸計(jì)算的向量化的讀和寫掩碼更新指令
- 聯(lián)邦學(xué)習(xí)隱私數(shù)據(jù)處理方法、設(shè)備、系統(tǒng)及存儲介質(zhì)





