[發明專利]一種基于Retinex模型的卡通風格遷移方法在審
| 申請號: | 202110305033.7 | 申請日: | 2021-03-10 |
| 公開(公告)號: | CN113066114A | 公開(公告)日: | 2021-07-02 |
| 發明(設計)人: | 施云惠;歐陽浩然;齊娜;尹寶才 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06T7/40 | 分類號: | G06T7/40;G06T7/90;G06T13/20;G06T15/50;G06N3/08;G06N3/02 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 retinex 模型 卡通 風格 遷移 方法 | ||
1.一種基于Retinex模型的卡通風格遷移方法,其特征在于:
方法實現分為訓練階段和測試階段;首先同時訓練兩個生成對抗網絡來實現,它們分別是生成器G與鑒別器DR以及生成器F與鑒別器DI,然后將現實照片x作為輸入使其連續通過生成器G與生成器F最后得到輸出圖像F(G(x));
分為以下三個步驟:數據集的預處理、RexGAN模型的訓練以及卡通圖像的合成;
1)數據集的預處理
為了有效的估計現實照片和卡通圖像的光照分量I和反射分量R,將內在與外在的聯合先驗模型Jeip整合到映射函數RexGAN中;因此首先使用Jeip模型分別對卡通圖像y和現實照片x進行分解,得到卡通圖像的反射分量Ry以及現實照片的反射分量Rx;然后利用未配對的訓練數據集和訓練生成器G使其學習從照片圖像x的照片域X到卡通圖像y的反射域Q的映射函數(ReflectGAN);最后通過配對的訓練數據集和訓練生成器F使其學習從卡通圖像的反射域Q到卡通域Y的映射函數(LuminGAN);訓練數據包含現實照片x和卡通圖像y,而測試數據只包括現實照片x;在RexGAN的訓練過程中,使用的是AnimeGAN所提供的數據集;此外,把所有訓練圖像都調整為256*256;
2)RexGAN模型的訓練
基于圖像的反射分量含有細膩紋理以及具有分段連續性的假設,將現實照片的反射轉移到對應的卡通圖像上;因此,RexGAN模型包括兩個映射G:x→Ry(ReflectGAN)和F:Ry→y(LuminGAN);此外,引入了兩個對抗鑒別器DR和DI,DR的目的是區分圖像Ry和已轉換圖像G(x),其與生成器G相對應;同樣的,DI的目的是區分y和F(Ry),其與生成器F相對應;因此,目標函數被表述為:
其中argminmax表示最大最小問題的解決,其中與訓練一個生成對抗網絡類似,將解決兩個生成對抗網絡的訓練問題,即最小化生成器G與生成器F,最大化鑒別器DR和鑒別器DI;
LuminGAN本質上是利用生成對抗網絡來保存目標圖像的結構和重建目標圖像的光照;因此,公式推導為:
L(G,F,DR,DI)=LR(G,DR)+LI(F,DI) (2)
LR(G,DR)和LI(F,DI)分別代表了ReflectGAN和LuminGAN的損失函數,接下來對其進行詳細描述;
2.1 ReflectGAN的訓練
ReflectGAN被訓練用來學習卡通圖像反射的風格特征;為了減少ReflectGAN的訓練參數,直接引入了AnimeGANv2中的生成器模型;此外,使用了一個簡單的塊級鑒別器來判斷生成的結果是否具有卡通圖像反射成分的特征;
ReflectGAN的損失函數由反射對抗損失內容損失反射風格損失Lgra以及顏色一致性損失Lcol組成;因此,LR(G,DR)表示為:
其中ω1=300,ω2=1.4、ω3=2.5和ω4=100是用于平衡ReflectGAN損失的權重;
將現實照片x輸入到生成器G中并嘗試生成圖像G(x),圖像G(x)的外觀風格和紋理應該與真實卡通圖像的反射分量Ry一致,而鑒別器DR的目的是將合成的圖像G(x)與反射分量Ry區分開;因此,分別將生成圖像G(x)與反射分量Ry輸入到鑒別器DR中得到虛假概率DR(G(x))以及真實概率DR(Ry),然后將虛假概率DR(G(x))與真實概率值1作比較以及將真實概率DR(Ry)與虛假概率值0作比較,進而使生成器G與鑒別器DR達到交替迭代訓練的目的,直至收斂;而為了有效地學習卡通圖像反射的風格特征,提出基于最小二乘損失的反射對抗損失來約束生成器G和鑒別器DR;反射對抗損失則表示為:
其中表示卡通圖像反射域Q中反射分量Ry的數據集合,表示現實照片域X中現實照片x的數據集合;
引入感知損失作為內容損失,其具有保持圖像內容和整體空間結構的能力;因此利用VGG能提取高級特征的能力提取G(x)、x以及Ry的圖像高級特征;此外,使用Gram矩陣從圖像的高級特征中來提取圖像反映的風格特征;最后,將內容損失和反射風格損失Lgra定義為:
其中表示將卡通圖像反射域Q中反射分量Ry與現實照片域X中現實照片x的數據集合與VGG表示由ImageNet數據集上預訓練的19層VGG網絡提取的高級特征圖,l表示特定VGG層的特征映射;在訓練中,選擇“conv4-4”層來計算這個損失;
反射風格損失包含了風格圖像反射的顏色信息,而JeiP模型主要是HSV顏色空間照明度(V)通道中進行的圖像分解;因此,將RGB格式的圖像轉換為HSV格式,建立顏色一致性損失,使生成的圖像的反射顏色與真實照片的反射顏色接近;因為V通道中包含了大量的紋理信息,所以對V通道采用l1稀疏約束,對色調(H)通道和飽和度(S)通道采用Huber損失lh;顏色一致性損失Lcol定義為:
其中表示現實照片域X中現實照片x與現實照片反射域P中的現實照片反射分量Rx的數據集合;H(·),S(·),V(·)分別表示HSV格式圖像的三個通道,并且α表示V通道的權重;
2.2 LuminGAN的訓練
將四個輕量級的通道注意力模塊(ECA)整合到生成器F的八個逆殘差塊(IRB)中組成新的殘差塊;
將卡通圖像和卡通圖像的反射作為一組成對數據集LuminGAN進行訓練,使生成器F具有重建光照特征的能力;因此,目標函數LI(F,DI)主要由光照對抗性損失內容損失以及全局一致性損失Lglo;LuminGAN的損失函數表示為:
其中γ1=150,γ2=0.5和γ3=1000是用于平衡LuminGAN損失的權重;
將卡通圖像的反射分量Ry輸入到生成器F中并嘗試生成圖像F(Ry),圖像F(Ry)的外觀應該與真實卡通圖像y一致,而鑒別器DI的目的是將合成的圖像F(Ry)與反射分量Ry區分開;
因此光照對抗損失被定義為:
公式(9)與公式(4)的約束方式相同,區別在于分別將卡通圖像y與其反射分量Ry輸入到鑒別器DI中得到真實概率DI(y)以及虛假概率DI(F(Ry));然后將虛假概率DI(F(Ry))與真實概率值1作比較以及將真實概率DI(y)與虛假概率值0作比較,進而使生成器F與鑒別器DI達到交替迭代訓練的目的,直至收斂;其中表示卡通圖像域Y中卡通圖像y的數據集合;
為了加快LuminGAN訓練時的收斂速度,加入了與ReflectGAN中內容損失結構相同的內容損失去約束生成器F,其中區別在于僅僅將ReflectGAN中的輸入現實圖像x改為輸入卡通圖像的反射分量Ry;為了突出圖像的邊緣結構,引入了HSV空間的顏色一致性損失約束生成器F,并將這種一致性損失添加到整個圖像中;因此,將全局一致性損失Lglo定義為:
其中表示卡通圖像反射域Q中反射分量Ry與卡通圖像域Y中卡通圖像y的數據集合,H(·),S(·),V(·)分別表示HSV格式圖像的三個通道,β=2表示V通道的權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110305033.7/1.html,轉載請聲明來源鉆瓜專利網。





