[發明專利]基于雙生成對抗網絡的兩階段表情動畫生成方法有效
| 申請號: | 202010621885.2 | 申請日: | 2020-07-01 |
| 公開(公告)號: | CN111783658B | 公開(公告)日: | 2023-08-25 |
| 發明(設計)人: | 郭迎春;王靜潔;劉依;朱葉;郝小可;于洋;師碩;閻剛 | 申請(專利權)人: | 河北工業大學 |
| 主分類號: | G06T13/40 | 分類號: | G06T13/40;G06V40/16;G06V10/82;G06N3/045;G06N3/0475;G06N3/094 |
| 代理公司: | 天津翰林知識產權代理事務所(普通合伙) 12210 | 代理人: | 付長杰 |
| 地址: | 300130 天津市紅橋區*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 雙生 成對 網絡 階段 表情 動畫 生成 方法 | ||
1.一種基于雙生成對抗網絡的兩階段表情動畫生成方法,其特征在于,該方法首先在第一階段中利用表情遷移網絡FaceGAN提取目標表情輪廓圖中的表情特征,并將其遷移到源人臉,生成第一階段預測圖;第二階段中利用細節生成網絡FineGAN來作為補充豐富第一階段預測圖中的對表情變化貢獻比較大的眼睛和嘴巴區域的細節,生成細粒度的第二階段預測圖并合成人臉視頻動畫,表情遷移網絡FaceGAN及細節生成網絡FineGAN均采用生成對抗網絡實現;
表情遷移網絡FaceGAN包括一個生成器G1和一個判別器D1,其中生成器G1包括三個子網絡,分別是一個身份編碼器Encid和一個表情編碼器Encexp,一個解碼器Dec1;
細節生成網絡FineGAN中包含生成器G2和判別器D2,D2是由一個全局判別器Dglobal、一個眼部局部判別器Deye和一個嘴部局部判別器Dmouth構成;
所述方法的具體步驟是:
第一步,獲取數據集中每一幀圖像的人臉表情輪廓圖:
采集人臉表情視頻序列數據集,使用Dlib機器學習庫提取視頻序列中每一幀圖像中的人臉,同時獲取每張人臉中的多個特征點,然后使用線段依次連接特征點,獲得視頻序列每一幀的表情輪廓圖,記為e=(e1,e2,···,ei,···,en),其中e代表一個視頻序列中所有表情輪廓圖的集合,即表情輪廓圖序列;n代表視頻幀數,ei代表某個視頻序列中第i幀的表情輪廓圖;
第一階段,搭建表情遷移網絡FaceGAN,包括第二步到第四步:
第二步,提取源人臉的身份特征和目標表情輪廓圖的表情特征,初步生成第一階段預測圖:
表情遷移網絡FaceGAN包括一個生成器G1和一個判別器D1,其中生成器G1包括三個子網絡,分別是兩個編碼器Encid和Encexp,一個解碼器Dec1;
首先輸入源人臉的一張中性無表情圖像IN和目標表情輪廓圖序列e,然后利用身份編碼器Encid提取源人臉的中性無表情圖像IN的身份特征向量fid,同時利用表情編碼器Encexp提取目標表情輪廓圖序列e的表情特征向量集合fexp,其中fexp=(fexp_1,fexp_2,···,fexp_i,···,fexp_n),公式表達為:
fid=Encid(IN)???????(1),
fexp_i=Encexp(ei)???????(2),
將身份特征向量fid和第i幀的表情特征向量fexp_i進行串聯,得到特征向量f且f=fid+fexp_i,將特征向量f輸送到解碼器Dec1進行解碼,生成第一階段預測圖Ipre-target,且Ipre-target=Dec1(f),最后將Ipre-target輸入到判別器D1中判別圖像的真假;
第三步,將第一階段預測圖作為輸入,采用CycleGAN的思想重構源人臉中性圖像:
將第一階段預測圖Ipre-target和上述第二步中的中性無表情圖像IN所對應的表情輪廓圖eN重新作為表情遷移網絡FaceGAN的輸入,利用身份編碼器Encid提取圖像Ipre-target的身份特征向量,同時利用表情編碼器Encexp提取表情輪廓圖eN的表情特征向量,重復進行上述第二步的操作,經解碼器解碼生成IN的重構圖像Irecon,生成重構圖像Irecon的公式表達為:
Irecon=Dec1(Encid(Ipre-target)+Encexp(eN))????(3);
第四步,計算第一階段表情遷移網絡FaceGAN中的損失函數:
上述第一階段表情遷移網絡FaceGAN中的生成器G1的損失函數具體公式為:
其中,
其中,Ireal為目標真實值,公式(5)為生成器的對抗損失,D1(·)表示判別器D1對象為真的概率,公式(6)中的SSIM(·)函數用來衡量兩張圖像之間的相似性,公式(7)為像素損失,MAE(·)函數為均方誤差函數,用來衡量真實值與預測值之間的差距,公式(8)為感知損失,利用VGG-19提取圖像的感知特征,采用VGG-19網絡中的最后一個卷積層輸出的特征作為圖像的感知特征,以此計算生成圖像與真實圖像之間的感知損失,公式(9)為重構損失,計算源人臉的中性無表情圖像IN和其重構圖像Irecon之間的距離;
上述第一階段表情遷移網絡FaceGAN中的判別器D1的損失函數具體公式為:
其中,
公式(11)為對抗損失,公式(12)為重構圖像的對抗損失,其中,λ1和λ2為相似性損失與感知損失在FaceGAN的生成器G1中的權重參數,λ3為重構圖像的對抗損失在FaceGAN判別器損失中的權重參數;
搭建第二階段的細節生成網絡FineGAN,包括第五步到第七步:
第五步,生成適應個體的局部掩模向量:
將上述第一步中獲得的每張人臉中的多個特征點用于提取出眼睛區域Ieye和嘴巴區域Imouth,分別設置眼睛掩模向量Meye和嘴巴掩模向量Mmouth,以眼部為例,將圖像中眼睛區域的像素值設為1,其他區域像素值設為0,構成眼睛掩模向量Meye,嘴巴掩膜向量Mmouth的構成與眼睛掩模向量Meye類似;
第六步,將上述第一階段預測圖輸入到第二階段的網絡中,進行細節優化:
細節生成網絡FineGAN中包含生成器G2和判別器D2,D2是由一個全局判別器Dglobal和兩個局部判別器Deye和Dmouth構成;
將第一階段預測圖Ipre-target和第二步中的中性無表情圖像IN輸入到生成器G2中,生成具有更多人臉細節的第二階段預測圖Itarget,然后將第二階段預測圖Itarget同時輸入到三個判別器中,通過全局判別器Dglobal對第二階段預測圖Itarget進行全局判別,使第二階段預測圖Itarget與目標真實圖像Ireal盡可能接近,通過眼部局部判別器Deye和嘴部局部判別器Dmouth對第二階段預測圖Itarget的眼部和嘴部區域進一步著重優化,使得第二階段預測圖Itarget更加逼真,第二階段預測圖Itarget的公式表達為:
Itarget=G2(Ipre-target,IN)????(13);
第七步,計算第二階段FineGAN中的損失函數:
生成器G2損失函數具體公式為:
其中,
公式(15)為對抗損失,包含全局對抗損失和局部對抗損失,操作符是哈達瑪積,公式(16)為像素損失,公式(17)和公式(18)為局部像素損失,計算生成圖像的局部區域與真實圖像的局部區域的像素差值的L1范數,公式(19)為局部感知損失,生成器G2總損失函數即各損失函數的加權和;
判別器D2的損失函數具體公式為:
其中,
公式(21)為全局判別器的對抗損失,公式(22)和公式(23)為局部判別器的對抗損失,其中,λ4和λ5分別為局部對抗損失在FineGAN生成器G2中的權重參數,λ6和λ7分別為眼部像素損失和嘴部像素損失在FineGAN生成器G2中的權重參數,λ8為局部感知損失在FineGAN生成器G2中的權重參數,λ9為全局對抗損失損失在FineGAN判別器D2中的權重參數;
第八步,合成視頻:
每一幀均是獨立生成,因此在完成n幀圖像(Itarget_1,Itarget_2,···,Itarget_i,···,Itarget_n)的生成后,將視頻幀序列合成最終的人臉動畫;
至此,完成基于雙生成對抗網絡的兩階段表情動畫的生成,對人臉圖像中的表情進行了轉換,并優化了圖像細節。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河北工業大學,未經河北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010621885.2/1.html,轉載請聲明來源鉆瓜專利網。





