[發明專利]基于文本生成圖像的模型訓練方法、設備和圖像生成方法有效
| 申請號: | 202110266563.5 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN112990302B | 公開(公告)日: | 2023-03-21 |
| 發明(設計)人: | 馮方向;牛天睿;王小捷;李睿凡;袁彩霞 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06V10/774 | 分類號: | G06V10/774;G06V10/74;G06N20/00;G06T11/00 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 孫清然;王琦 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文本 生成 圖像 模型 訓練 方法 設備 | ||
本申請公開了一種基于文本生成圖像的模型訓練方法、設備和圖像生成方法,其中方法包括基于預設訓練樣本集合中各訓練樣本的文本信息,生成文本嵌入式表示,將所述文本嵌入式表示輸入至圖像生成模型,觸發圖像生成模型基于該文本嵌入式表示,生成人造圖像,并采用模態解糾纏方式,提取人造圖像的真實度參數和相應訓練樣本的真實圖像的真實度參數;基于所述人造圖像,確定所述訓練樣本的正例和負例;利用所述圖像生成模型,基于每個訓練樣本的正例、負例和真實圖像各自對應的所述真實度參數,計算總體損失函數;利用所述總體損失函數,調整所述圖像生成模型的參數。采用本申請可以提高模型學習效率和圖像生成效果。
技術領域
本發明涉及人工智能技術,特別是涉及一種基于文本生成圖像的模型訓練方法、設備和圖像生成方法。
背景技術
圖像的創作是一項復雜而重要的工作,它需要專業的繪圖與美術知識。因此,面對廣泛的需求,機器輔助的圖像創作已成為近期的熱點,希望機器幫助人用更少的專業知識、更簡便快捷的方法創作出所需要的圖像。對于無繪畫經驗者而言,通過語言交互來控制機器繪制圖像是最簡單自然的方法。這樣,就需要機器能夠理解并利用人類語言中語義信息,以生成相應的圖像。為滿足該需求,產生了基于文本生成圖像的技術。這類技術需要完成兩個基本目標:可信度(fidelity)與一致性(consistency),可信度是指產生的人造圖像要與真實圖像相似,即看起來逼真;一致性則是指產生的圖像能夠反映出文本輸入信息。
發明人在實現本發明的過程中發現現有基于文本生成圖像的方案中存在模型學習效率低、效果差等問題。具體原因分析如下:
由于文本信息無法覆蓋圖像的所有細節信息,在基于文本生成圖像的方案中,對于文本信息中沒有限定的圖像細節特征,需要隨機產生。這樣,在基于文本生成圖像的場景下,圖像信息包括兩部分,一部分是模態公共部分與模態特定部分。其中,模態公共部分與文本信息相對應,反映了圖像的內容,模態特定部分則是隨機產生的,處于不受控制的半隨機狀態,與圖像的內容無關,反映了圖像的風格?,F有方案在訓練圖像生成模型時,基于包含模態特定部分的圖像特征確定損失函數值。而圖文一致性僅與圖像的模態公共部分有關,與圖像的模態特定部分無關,模態特定部分的存在引入了隨機噪聲,會干擾模型的學習,從而會導致模型學習效率低、效果差。另外,由于模態特定部分反映了圖像風格,該部分不是文本限定的,具有隨機性,因此,采用現有基于文本生成圖像的方案時,僅能通過改變文本條件來改變所生成圖像的內容,而無法有效控制圖像的風格,從而導致無法有效控制圖像的風格,進而降低了實用性。
發明內容
有鑒于此,本發明的主要目的在于提供一種基于文本生成圖像的模型訓練方法、設備和圖像生成方法,可以提高模型學習效率和圖像生成效果。
為了達到上述目的,本發明提出的技術方案為:
一種基于文本生成圖像的模型訓練方法,包括:
對于預設訓練樣本集合中的每個訓練樣本,基于該訓練樣本的文本信息,生成相應的文本嵌入式表示,并將所述文本嵌入式表示輸入至圖像生成模型,觸發所述圖像生成模型基于所述文本嵌入式表示,生成所述文本信息對應的人造圖像,并采用模態解糾纏方式,提取所述人造圖像的真實度參數和相應訓練樣本的真實圖像的真實度參數;所述真實度參數包括:圖像風格的視覺可信度、圖-文相似度和圖像的整體視覺可信度;
基于所述人造圖像,確定每個所述訓練樣本的正例和負例;
利用所述圖像生成模型,基于每個所述訓練樣本的正例、負例和真實圖像各自對應的所述真實度參數,計算相應樣本的子損失函數,并基于所述子損失函數,計算相應樣本的總體損失函數;所述子損失函數包括內容損失函數、風格損失函數、生成器損失函數和判別器損失函數;所述總體損失函數包括判別器總體損失函數和生成器總體損失函數;
利用所述總體損失函數,調整所述圖像生成模型的參數。
基于上述模型訓練方法實施例,本發明實施例還公開了一種基于文本生成圖像的方法,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110266563.5/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





