[發明專利]一種基于過渡空間映射的文本生成圖像方法和系統有效

申請號：	201911022919.X	申請日：	2019-10-25
公開（公告）號：	CN110930469B	公開（公告）日：	2021-11-16
發明（設計）人：	彭宇新;袁明寬	申請（專利權）人：	北京大學
主分類號：	G06T11/00	分類號：	G06T11/00
代理公司：	北京君尚知識產權代理有限公司 11200	代理人：	邱曉鋒
地址：	100871***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于過渡空間映射文本生成圖像方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于過渡空間映射的文本生成圖像方法，包括以下步驟：

利用數據庫中的圖像和文本，訓練由一個過渡空間映射網絡和一個生成式對抗網絡級聯組成的文本生成圖像模型；

對于用戶輸入的文本，利用訓練完成的文本生成圖像模型，生成與輸入文本內容相符的圖像；

所述文本生成圖像模型中，過渡空間映射網絡M能夠結合隨機噪聲z將文本的特征表達映射到過渡空間，產生可解釋性特征表達然后，將可解釋性特征表達輸入到生成式對抗網絡中的生成器G中，通過生成器G的多層卷積層運算后，得到生成圖像將生成圖像數據庫中的成對圖像i、不成對圖像i′與成對文本t一同輸入至生成式對抗網絡中的判別器D中，計算不同的對抗損失函數；

所述文本生成圖像模型中訓練的損失函數包括：

其中，Loss_D-VRAdv表示對應判別器的真實性對抗損失函數；Loss_D-CCAdv表示對應判別器的內容一致性對抗損失函數；Loss_G-Adv表示對應生成器的對抗損失函數；Ε表示期望值；i表示數據庫中的成對圖像，i′表示數據庫中的不成對圖像，t表示數據庫中的成對文本，p_data表示真實數據的概率分布值，p_z表示隨機噪聲的概率分布值，表示判別器對輸入的成對圖像i與成對文本t的特征表達的預測值；表示判別器對輸入的不成對圖像i′與成對文本t的特征表達的預測值；

所述文本生成圖像模型中訓練的損失函數還包括一組三元互信息約束損失函數，其計算方式如下：

其中，Loss_Info-TI表示輸入文本的特征表達與生成圖像之間的互信息約束損失函數，Loss_Info-TS表示輸入文本的特征表達與可解釋性特征表達之間的互信息約束損失函數，Ε表示期望值，表示輸入文本的特征表達的概率分布值，x表示服從生成圖像數據分布的變量，“～”表示服從某一數據分布，表示輸入文本的特征表達的信息熵，表示生成圖像的觀測模擬全連接層Q的輸出，表示可解釋性特征表達的觀測模擬全連接層Q′的輸出。

2.如權利要求1所述的方法，其特征在于，所述過渡空間映射網絡包含多層全連接層；生成式對抗網絡包含一個生成器與一個判別器，生成器以文本特征作為輸入生成高分辨率的圖像，判別器以圖像作為輸入判別其真實性和與輸入文本向量之間的相關性。

3.如權利要求1所述的方法，其特征在于，通過組合各損失函數，提出針對判別器D的總損失函數，如下：

以及針對過渡空間映射網絡M和生成器G的總損失函數，如下：

其中，λ₁表示互信息約束損失函數在針對判別器D的總損失函數中的權值，λ₂表示互信息約束損失函數在針對過渡空間映射網絡M和生成器G的總損失函數中的權值；通過迭代地計算以上總損失函數的梯度，得到完成訓練的模型。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京大學，未經北京大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201911022919.X/1.html，轉載請聲明來源鉆瓜專利網。