[發明專利]虛假人臉動畫合成方法在審
| 申請號: | 202110021844.4 | 申請日: | 2021-01-07 |
| 公開(公告)號: | CN112785671A | 公開(公告)日: | 2021-05-11 |
| 發明(設計)人: | 張勇東;于靈云;謝洪濤 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G06T13/80 | 分類號: | G06T13/80;G06T9/00 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 鄢功軍 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 虛假 動畫 合成 方法 | ||
1.一種虛假人臉動畫合成方法,包括:
從第一目標視頻中提取語音信息和文本信息,并分別提取所述語音信息中的多幀音頻特征和所述文本信息中的多幀韻律特征;
將所述多幀音頻特征和所述多幀韻律特征輸入訓練完成的編碼器-解碼器網絡,輸出每一幀所述音頻特征和所述韻律特征對應的多個關鍵點所組成的多組關鍵點序列;
根據第二目標視頻和所述多組關鍵點序列,生成多幀合成人臉草圖;以及
使用視頻生成網絡基于所述多幀合成人臉草圖合成虛假人臉動畫。
2.根據權利要求1所述的方法,其中,所述訓練完成的編碼器-解碼器網絡通過如下訓練方法得到,訓練方法包括:
從樣本視頻中提取樣本語音信息和樣本文本信息,并分別提取所述樣本語音信息中的多幀樣本音頻特征和所述樣本文本信息中的多幀樣本韻律特征;
將所述樣本視頻按幀解碼成多幀樣本圖像,提取經過歸一化處理后的所述多幀樣本圖像中的唇部區域及下巴區域的關鍵點,得到多組樣本關鍵點序列;以及
以所述多幀樣本音頻特征和所述多幀樣本韻律特征作為輸入,以所述多組樣本關鍵點序列作為標簽,訓練初始編碼器-解碼器網絡結構,得到所述訓練完成的編碼器-解碼器網絡。
3.根據權利要求2所述的方法,其中,所述初始編碼器-解碼器網絡結構包括:
語音編碼器,用于獲取并編碼所述多幀音頻特征或所述多幀樣本音頻特征;
文本編碼器,用于獲取并編碼所述多幀韻律特征或所述多幀樣本韻律特征;以及
解碼器,用于解碼所述語音編碼器和所述文本編碼器獲取的特征,輸出所述多組關鍵點序列或所述多組樣本關鍵點序列。
4.根據權利要求1所述的方法,其中,所述根據第二目標視頻和所述多組關鍵點序列,生成多幀合成人臉草圖包括:
將所述第二目標視頻按幀解碼并提取得到多幀人臉草圖;
基于所述多幀人臉草圖中的人臉角度和形狀信息,使用嘴部反歸一化方法逐個更新所述多組關鍵點序列中各個關鍵點的位置,得到多組與所述多幀人臉草圖中的人臉角度和形狀信息一致的預測關鍵點序列;以及
依次將所述多組預測關鍵點序列和所述多幀人臉草圖進行合成,得到所述多幀合成人臉草圖。
5.根據權利要求4所述的方法,其中,所述使用嘴部反歸一化方法逐個更新所述多組關鍵點序列中各個關鍵點的位置使用下式實現:
其中,表示一組所述關鍵點序列中的一個關鍵點;
表示與對應的一組所述預測關鍵點序列中的關鍵點;
θ表示所述人臉草圖中人臉圖像的旋轉角度;
d1表示該組所述關鍵點序列中表示下巴的關鍵點之間的最大寬度;
d2表示所述人臉草圖中下巴最大寬度;
c′(x,y)表示該組所述關鍵點序列中表示嘴部的關鍵點的中心點;
c″(x,y)表示所述人臉草圖中嘴部的中心點。
6.根據權利要求1所述的方法,其中,所述視頻生成網絡通過如下訓練方法得到,訓練方法包括:
將樣本視頻解碼成多幀樣本圖像,從所述樣本視頻中獲取多幀樣本人臉草圖;以及
以所述多幀樣本人臉草圖作為輸入,以所述多幀樣本圖像作為標簽,訓練初始網絡模型,得到所述視頻生成網絡。
7.根據權利要求6所述的方法,其中,所述訓練初始網絡模型,得到所述視頻生成網絡包括:
采用光流估計對所述樣本視頻幀之間的時間動態性能進行建模;以及
采用嘴部掩碼(mouth mask)函數作為所述視頻生成網絡的損失函數。
8.根據權利要求7所述的方法,其中,所述mouth mask函數表示如下:
其中,T表示所述樣本圖像的幀數;
xt表示第t幀所述樣本圖像;
表示將第t幀所述樣本人臉草圖輸入到所述初始網絡模型中生成的輸出樣本圖像;
mt表示第t幀所述樣本圖像對應的嘴部掩碼。
9.根據權利要求1所述的方法,其中,所述使用視頻生成網絡基于所述多幀合成人臉草圖合成虛假人臉動畫使用下式實現:
其中,表示已生成的L幀圖像;
表示所述合成人臉草圖序列以及嘴部掩碼,st表示第t幀所述合成人臉草圖,mt表示第t幀所述合成人臉草圖對應的嘴部掩碼;
表示第t幀所述合成人臉草圖對應的遮擋掩碼(occlusion mask);
表示生成的第t幀偽參考圖(Hallucinated image),用于合成被遮擋的背景區域;
表示生成的第t幀嘴部區域的圖像;
表示和間估計的光流,通過可以從估計得到
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110021844.4/1.html,轉載請聲明來源鉆瓜專利網。





