[發明專利]基于自然語言的圖像修改與生成方法在審
| 申請號: | 202111474605.0 | 申請日: | 2021-12-06 |
| 公開(公告)號: | CN114140666A | 公開(公告)日: | 2022-03-04 |
| 發明(設計)人: | 蔣興浩;唐致遠;許可;孫錟鋒 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06V10/774 | 分類號: | G06V10/774;G06F16/33;G06K9/62 |
| 代理公司: | 上海漢聲知識產權代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 自然語言 圖像 修改 生成 方法 | ||
1.一種基于自然語言的圖像修改與生成方法,其特征在于,包括如下步驟:
步驟S1,根據任務類型,基于輸入的圖像計算獲取初始圖像隱向量;
步驟S2,輸入目標文本,基于所述目標文本計算目標文本嵌入向量;
步驟S3,設定不同目標生成策略,基于目標生成策略計算對應的圖像生成預訓練模型的層更新權重;
步驟S4,依據輸入圖像計算初始圖像隱向量、目標文本嵌入向量與層更新權重生成策略,對圖像生成預訓練模型的參數與圖像隱向量進行訓練調優,以得到更新后的合成圖像的隱向量和圖像生成預訓練模型;
步驟S5,基于更新后的合成圖像的隱向量和圖像生成預訓練模型,得到并輸出合成的目標圖像。
2.如權利要求1所述的基于自然語言的圖像修改與生成方法,其特征在于,所述步驟S1包括如下步驟:
步驟S1.1,獲取用戶輸入,確定輸入中是否存在圖像;
步驟S1.2,若步驟S1.1中判斷為是,則當前任務為修改圖像,使用圖像編碼器計算輸入的圖像對應的隱向量,將計算得到的隱向量作為初始圖像隱向量;
步驟S1.3,若步驟S1.1中判斷為否,則當前任務為生成圖像,在輸入層的隱空間內隨機采樣隱向量作為初始圖像隱向量。
3.如權利要求2所述的基于自然語言的圖像修改與生成方法,其特征在于,所述圖像編碼器為具有逆向計算對應圖像生成器的輸入隱向量的編碼器。
4.如權利要求2所述的基于自然語言的圖像修改與生成方法,其特征在于,所述步驟S2包括如下步驟:
步驟S2.1,獲取用戶輸入的目標文本;
步驟S2.2,通過分詞器將所述目標文本拆分為符號集;
步驟S2.3,使用預訓練文本編碼器計算所述符號集的目標文本嵌入向量。
5.如權利要求4所述的基于自然語言的圖像修改與生成方法,其特征在于,所述分詞器為具有對自然語言文本進行單詞拆分與符號轉化的碼本;預訓練文本編碼器為具有對文本符號集進行向量空間嵌入的文本模型;所述分詞器與文本編碼器成對使用。
6.如權利要求4所述的基于自然語言的圖像修改與生成方法,其特征在于,所述步驟S3包括如下步驟:
步驟S3.1,設定不同目標生成策略,所述目標生成策略包括自由度的設定,所述自由度的設定包括:形狀自由度、紋理自由度和內容自由度的設定;
步驟S3.2,根據設定的目標生成策略計算對應圖像生成預訓練模型的層更新權重,其中,所述層更新權重,用于決定所述圖像生成預訓練模型的各層的可訓練度。
7.如權利要求6所述的基于自然語言的圖像修改與生成方法,其特征在于,所述自由度為控制生成圖像效果的超參數,自由度越高則生成范圍越廣,但失真概率越大;自由度越低則生成范圍越窄,但失真概率越小。
8.如權利要求6所述的基于自然語言的圖像修改與生成方法,其特征在于,圖像生成預訓練模型為具有層解耦能力的預訓練圖像生成器。
9.根據權利要求6所述的基于自然語言的圖像修改與生成方法,其特征在于,所述步驟S4包括如下步驟:
步驟S4.1,將初始圖像隱向量輸入圖像生成預訓練模型,獲取輸出的合成圖像;
步驟S4.2,將輸出的合成圖像輸入預訓練視覺嵌入模型,獲取合成圖像的嵌入向量;
步驟S4.3,將合成圖像的嵌入向量與目標文本嵌入向量,輸入對比語言圖像預訓練模型,計算語義距離作為模型訓練的對比損失值;
步驟S4.4,將所述對比損失值反向傳播到網絡各節點,根據層更新權重縮放各節點損失值,再通過優化器更新合成圖像的隱向量與圖像生成預訓練模型的參數。
10.根據權利要求9所述的基于自然語言的圖像修改與生成方法,其特征在于,所述對比語言圖像預訓練模型為根據文本圖像進行預訓練的模型,具有計算文本與圖像之間的語義距離的能力。
11.根據權利要求9所述的基于自然語言的圖像修改與生成方法,其特征在于,所述步驟S5包括如下步驟:
步驟S5.1,將更新后的合成圖像的隱向量輸入更新后的圖像生成預訓練模型,獲取合成的目標圖像;
步驟S5.2,將合成的目標圖像輸出至顯示屏并展示結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111474605.0/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





