[發明專利]一種基于平衡棧式生成式對抗網絡的人臉屬性編輯方法在審
| 申請號: | 202010521351.2 | 申請日: | 2020-06-10 |
| 公開(公告)號: | CN111914617A | 公開(公告)日: | 2020-11-10 |
| 發明(設計)人: | 王嘯天;陳百基 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32;G06K9/62 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 馮炳輝 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 平衡 生成 對抗 網絡 屬性 編輯 方法 | ||
1.一種基于平衡棧式生成式對抗網絡的人臉屬性編輯方法,其特征在于,該方法是采用加權學習和訓練多個條件生成式對抗網絡的方式,解決屬性不平衡問題,并堆疊所有訓練好的條件生成式對抗網絡的生成器,形成棧式結構,解決屬性糾纏問題,以及利用殘差圖像生成方式,解決圖像編輯不準確問題;其包括以下步驟:
1)獲取包含人臉圖像和屬性標簽的數據集,并進行預處理;
2)根據人臉圖像的尺寸,構建多個由成對生成器和判別器構成的條件生成式對抗網絡;
3)利用預處理的數據集,針對不同人臉屬性,采用加權學習和殘差圖像生成方式,獨立訓練所有條件生成式對抗網絡;
4)將所有訓練好的生成器堆疊起來形成棧式結構,針對預處理的未知人臉圖像,依次編輯對應人臉屬性。
2.根據權利要求1所述的一種基于平衡棧式生成式對抗網絡的人臉屬性編輯方法,其特征在于:在步驟1)中,所述數據集是通過網上公開的人臉數據集獲得;所述人臉圖像是指包含單張人臉的圖像,預處理包括:裁剪、縮放和歸一化,使圖像中的人臉占據主要畫面,并且像素值大小介于-1和1之間,用x代表一張人臉圖像,所有x構成了人臉圖像集合即所述屬性標簽用yj表示,是指人臉的第j個屬性的取值的標簽,其中j=1,2,…,m,m為屬性個數,所有屬性標簽yj構成了屬性標簽集合即m個屬性標簽組合之后,加上1張人臉圖像,一起構成了1對樣本。
3.根據權利要求1所述的一種基于平衡棧式生成式對抗網絡的人臉屬性編輯方法,其特征在于:在步驟2)中,根據人臉圖像的尺寸,構建多個由成對生成器和判別器構成的條件生成式對抗網絡,具體如下:
Ⅰ、以編碼器-解碼器的結構構建生成器Gj:
生成器Gj中的編碼器包含多個卷積層,它接收兩個變量,包括一張來自人臉圖像集合的人臉圖像和一個來自于目標屬性標簽集合的目標屬性標簽其中的值不同于屬性標簽yj的值vk,yj來自于屬性標簽集合vk為第j個屬性k的取值,j=1,2,…,m,m為屬性個數;1個屬性標簽組合之后,加上1張人臉圖像,一起構成了1對樣本;隨后Gj映射上述兩個接收的變量為一個隱編碼z,用于提取人臉圖像的特征,排除冗余信息;緊接著隱編碼z被輸入到由多個反卷積層組成的解碼器,生成一幅改變目標人臉屬性的殘差圖像其中定義為人臉圖像x和編輯后圖像的差值,為所有構成的集合,為所有構成的集合;最終,編輯后圖像經過x和在像素層面上疊加得到;由于少數類樣本在不平衡數據集中容易被忽略,所以需要對數據集中的每一個樣本賦予一個學習權重ω,來表示它在訓練中的重要性,帶有少數類屬性值的樣本的ω的值大,反之亦然;對于一張人臉圖像x,ω根據第j個屬性值vk來計算,定義如下:
式中,|Yj|指代第j個屬性的不同值的數量,表示第j個屬性是k的樣本的數量,即其中(x,yj)為人臉圖像x和屬性標簽yj構成的1對樣本,為人臉圖像集合和屬性標簽集合構成的1對集合,|.|代表一個集合的基數;ω測量帶有第j個屬性上的值的最大樣本數量與帶有第j個屬性上的值vk的樣本數量之間的比例,這個比例大于或等于1,越小,代表權重ω越大,反之亦然,這個權重鼓勵模型在學習過程中更多的關注帶有少數類屬性值的樣本;
Ⅱ、以兩個子判別器構建完整判別器Dj:
判別器Dj包括兩個子判別器:真實性判別器Djreal和類別判別器Djcls;真實性判別器Djreal用來判斷輸入圖像的真偽,預測輸入圖像是真實圖像的概率;類別判別器Djcls用來鑒別輸入圖像屬性值是否符合目標屬性值,預測符合程度,其中同一屬性的不同值能夠看作不同類別;兩個子判別器共享一個多層卷積神經網絡,但擁有獨立的雙層全連接層;
Ⅲ、構建生成器的訓練目標:
對抗損失連同其它三個損失成分:類別損失重構損失以及正則化損失被一同考慮進生成器Gj;對抗損失則被用來確保生成的圖像是真實的;類別損失控制人臉圖像被正確地根據目標屬性值來編輯;重構損失則增強在編輯過程中,生成器Gj保留屬性無關區域的信息的能力;正則化損失測量殘差圖像的L-1范數,以此增強它的稀疏性,其中殘差圖像應擁有大量零值像素;最終,生成器Gj的訓練目標LG包含上述四個成分,定義為:
式中,是平衡參數,分別指代對應損失的重要性;值得注意的是,所有四個損失成分都需要在計算上考慮對帶有少數類屬性的樣本進行加權;這些損失成分具體如下:
ⅰ、對抗損失
該損失量化了生成圖像的真實性程度,它被定義為:
式中,表示計算數學期望,屬性標簽yj來自于屬性標簽集合編輯后圖像來自于編輯后圖像集合vk為第j個屬性k的取值,j=1,2,…,m,m為屬性個數,ω為學習權重,真實性判別器是用來判斷輸入圖像真實性,通過最小化對抗損失,由Gj合成的圖像與真實圖像的相似性將獲得提高;
ⅱ、類別損失
該損失測量了人臉圖像x的第j個屬性被編輯之后的值,與目標屬性值相符合的程度,它采用了加權的二進制交叉熵損失函數的形式,定義如下:
式中,表示計算數學期望,屬性標簽yj來自于屬性標簽集合目標屬性標簽來自于目標屬性標簽集合編輯后圖像來自于編輯后圖像集合vk為第j個屬性k的取值,j=1,2,…,m,m為屬性個數,ω為學習權重,為二進制交叉熵函數,定義為:類別判別器用來判斷輸入圖像的第j個屬性是否被正確編輯;
ⅲ、重構損失
該損失避免了生成圖像中,屬性無關區域重構過程中的信息損失;重構損失測量了原始圖像x和重構圖像gj之間的差異,其中來自于重構圖像集合的是編輯后的圖像通過生成器Gj,根據屬性值vk生成后的結果,即重構損失定義如下:
式中,表示計算數學期望,屬性標簽yj來自于屬性標簽集合人臉圖像x來自人臉圖像集合重構圖像gj來自于重構圖像集合m為屬性個數,ω為學習權重,||.||1代表L-1范數;
ⅳ、正則化損失
在生成器Gj中,殘差圖像不是完整圖像,作為直接學習目標,它代表了在目標屬性上的局部像素變化,理論上殘差圖像應該是稀疏的,存在大量零值像素;因此,引入了正則化損失,并定義如下:
式中,表示計算數學期望,屬性標簽yj來自于屬性標簽集合殘差圖像來自于殘差圖像集合m為屬性個數,ω為學習權重,||.||1代表L-1范數;
Ⅳ、構建判別器Dj的訓練目標:
對抗損失和分類損失被考慮進判別器Dj的訓練目標中,定義如下:
式中,是平衡因子,指示類別損失的重要性;兩個損失定義如下:
ⅰ、對抗損失:
該損失用來鼓勵真實性判別器Djreal區分真實圖像和生成的虛假圖像,與施加在生成器Gj上的對抗損失相似,也利用基于Djreal判別結果的加權對數來量化輸入圖像的真實性,越小的對抗損失表示生成器的性能越差,對抗損失定義如下:
式中,表示計算數學期望,屬性標簽yj來自于屬性標簽集合人臉圖像來自人臉圖像集合χ,編輯后圖像來自于編輯后圖像集合vk為第j個屬性k的取值,j=1,2,…,m,m為屬性個數,ω為學習權重,真實性判別器是用來判斷輸入圖像真實性;
ⅱ、類別損失:
該損失亦量化了輸入圖像的第j個屬性的預測值與真實值之間的關聯度,最小化類別判別器Djcls的類別損失,確保了對輸入圖像的屬性值的準確判斷,類別損失定義如下:
式中,表示計算數學期望,屬性標簽yj來自于屬性標簽集合人臉圖像x來自人臉圖像集合m為屬性個數,ω為學習權重,l(yj,x)為二進制交叉熵函數,定義為類別判別器用來判斷輸入圖像的第j個屬性是否被正確編輯;
Ⅴ、構建生成器和判別器各自的優化器:
為了提高訓練穩定性和速度,生成器和判別器均采用Adam優化器,Adam優化器對梯度的一階矩估計和二階矩估計進行綜合考慮,以更新學習步長,自動調整學習率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010521351.2/1.html,轉載請聲明來源鉆瓜專利網。





