[發明專利]基于自然語言的圖像修改與生成方法在審
| 申請號: | 202111474605.0 | 申請日: | 2021-12-06 |
| 公開(公告)號: | CN114140666A | 公開(公告)日: | 2022-03-04 |
| 發明(設計)人: | 蔣興浩;唐致遠;許可;孫錟鋒 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06V10/774 | 分類號: | G06V10/774;G06F16/33;G06K9/62 |
| 代理公司: | 上海漢聲知識產權代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 自然語言 圖像 修改 生成 方法 | ||
本發明提供了一種基于自然語言的圖像修改與生成方法,包括:根據任務類型,基于輸入的圖像計算獲取初始圖像隱向量;輸入目標文本信息,計算目標文本嵌入向量;輸入目標文本,基于所述目標文本計算目標文本嵌入向量;設定不同目標生成策略,基于目標生成策略計算對應的圖像生成預訓練模型的層更新權重;依據輸入圖像計算初始圖像隱向量、目標文本嵌入向量與層更新權重,對圖像生成預訓練模型的參數與圖像隱向量進行訓練調優,以得到更新后的合成圖像的隱向量和圖像生成預訓練模型;基于更新后的合成圖像的隱向量和圖像生成預訓練模型,得到并輸出合成的目標圖像。本發明填補了通過自然語言進行可精細化控制的圖像修改或生成任務的空白,圖像修改與生成效果好,能在較短時間內獲取輸出結果。
技術領域
本發明涉及一種圖像修改與生成方法,特別是涉及一種基于自然語言的圖像修改與生成方法。
背景技術
隨著計算機硬件算力和深度學習算法的發展,計算機智能輔助圖像設計已經逐漸成為設計師工作中的關鍵工具,包括自動上色,自動填充等。這些算法在設計師已有工作的基礎上給出參考建議,或補足缺失信息,提高了設計專業人士的工作效率。
然而對于非專業人士,專業知識的匱乏使得創意產出本身變得困難,無法利用輔助設計工具產出圖像創意。
傳統的基于一定范圍內的文本信息進行圖像修改與生成的算法多是通過將圖像生成模型與語言模型共同訓練得到的文本-圖像生成能力,其生成能力僅限于訓練時提供的文本范圍。由于圖像生成模型的復雜性,該范圍通常較為局限,且生成圖像的過程中無法進行精細調整。
發明內容
針對現有技術中存在的上述不足,本發明的目的是提供一種基于自然語言的圖像修改與生成方法,該方法填補了通過自然語言進行可精細化控制的圖像修改或生成任務的空白,圖像修改與生成效果好,能在較短時間內獲取輸出結果。
本發明是通過下述技術方案來解決上述技術問題的。
一種基于自然語言的圖像修改與生成方法,包括如下步驟:
步驟S1,根據任務類型,基于輸入的圖像計算獲取初始圖像隱向量;
步驟S2,輸入目標文本,基于所述目標文本計算目標文本嵌入向量;
步驟S3,設定不同目標生成策略,基于目標生成策略計算對應的圖像生成預訓練模型的層更新權重;
步驟S4,依據輸入圖像計算初始圖像隱向量、目標文本嵌入向量與層更新權重,對圖像生成預訓練模型的參數與圖像隱向量進行訓練調優,以得到更新后的合成圖像的隱向量和圖像生成預訓練模型;
步驟S5,基于更新后的合成圖像的隱向量和圖像生成預訓練模型,得到并輸出合成的目標圖像。
優選地,所述步驟S1包括如下步驟:
步驟S1.1,獲取用戶輸入,確定輸入中是否存在圖像;
步驟S1.2,若步驟S1.1中判斷為是,則當前任務為修改圖像,使用圖像編碼器計算輸入的圖像對應的隱向量,將計算得到的隱向量作為初始圖像隱向量;
步驟S1.3,若步驟S1.1中判斷為否,則當前任務為生成圖像,在輸入層的隱空間內隨機采樣隱向量作為初始圖像隱向量;
其中,圖像編碼器為具有逆向計算對應圖像生成器的輸入隱向量的編碼器,例如對應StyleGAN的ReStyle編碼器。
優選地,所述步驟S2包括如下步驟:
步驟S2.1,獲取用戶輸入的目標文本;
步驟S2.2,通過分詞器將所述目標文本拆分為符號集;
步驟S2.3,使用預訓練文本編碼器計算所述符號集的目標文本嵌入向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111474605.0/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





