[發明專利]虛假人臉動畫合成方法在審

申請號：	202110021844.4	申請日：	2021-01-07
公開（公告）號：	CN112785671A	公開（公告）日：	2021-05-11
發明（設計）人：	張勇東;于靈云;謝洪濤	申請（專利權）人：	中國科學技術大學
主分類號：	G06T13/80	分類號：	G06T13/80;G06T9/00
代理公司：	中科專利商標代理有限責任公司 11021	代理人：	鄢功軍
地址：	230026 安***	國省代碼：	安徽;34
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	虛假動畫合成方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種虛假人臉動畫合成方法，包括：

從第一目標視頻中提取語音信息和文本信息，并分別提取所述語音信息中的多幀音頻特征和所述文本信息中的多幀韻律特征；

將所述多幀音頻特征和所述多幀韻律特征輸入訓練完成的編碼器-解碼器網絡，輸出每一幀所述音頻特征和所述韻律特征對應的多個關鍵點所組成的多組關鍵點序列；

根據第二目標視頻和所述多組關鍵點序列，生成多幀合成人臉草圖；以及

使用視頻生成網絡基于所述多幀合成人臉草圖合成虛假人臉動畫。

2.根據權利要求1所述的方法，其中，所述訓練完成的編碼器-解碼器網絡通過如下訓練方法得到，訓練方法包括：

從樣本視頻中提取樣本語音信息和樣本文本信息，并分別提取所述樣本語音信息中的多幀樣本音頻特征和所述樣本文本信息中的多幀樣本韻律特征；

將所述樣本視頻按幀解碼成多幀樣本圖像，提取經過歸一化處理后的所述多幀樣本圖像中的唇部區域及下巴區域的關鍵點，得到多組樣本關鍵點序列；以及

以所述多幀樣本音頻特征和所述多幀樣本韻律特征作為輸入，以所述多組樣本關鍵點序列作為標簽，訓練初始編碼器-解碼器網絡結構，得到所述訓練完成的編碼器-解碼器網絡。

3.根據權利要求2所述的方法，其中，所述初始編碼器-解碼器網絡結構包括：

語音編碼器，用于獲取并編碼所述多幀音頻特征或所述多幀樣本音頻特征；

文本編碼器，用于獲取并編碼所述多幀韻律特征或所述多幀樣本韻律特征；以及

解碼器，用于解碼所述語音編碼器和所述文本編碼器獲取的特征，輸出所述多組關鍵點序列或所述多組樣本關鍵點序列。

4.根據權利要求1所述的方法，其中，所述根據第二目標視頻和所述多組關鍵點序列，生成多幀合成人臉草圖包括：

將所述第二目標視頻按幀解碼并提取得到多幀人臉草圖；

基于所述多幀人臉草圖中的人臉角度和形狀信息，使用嘴部反歸一化方法逐個更新所述多組關鍵點序列中各個關鍵點的位置，得到多組與所述多幀人臉草圖中的人臉角度和形狀信息一致的預測關鍵點序列；以及

依次將所述多組預測關鍵點序列和所述多幀人臉草圖進行合成，得到所述多幀合成人臉草圖。

5.根據權利要求4所述的方法，其中，所述使用嘴部反歸一化方法逐個更新所述多組關鍵點序列中各個關鍵點的位置使用下式實現：

其中，表示一組所述關鍵點序列中的一個關鍵點；

表示與對應的一組所述預測關鍵點序列中的關鍵點；

θ表示所述人臉草圖中人臉圖像的旋轉角度；

d₁表示該組所述關鍵點序列中表示下巴的關鍵點之間的最大寬度；

d₂表示所述人臉草圖中下巴最大寬度；

c′_(x，y)表示該組所述關鍵點序列中表示嘴部的關鍵點的中心點；

c″_(x，y)表示所述人臉草圖中嘴部的中心點。

6.根據權利要求1所述的方法，其中，所述視頻生成網絡通過如下訓練方法得到，訓練方法包括：

將樣本視頻解碼成多幀樣本圖像，從所述樣本視頻中獲取多幀樣本人臉草圖；以及

以所述多幀樣本人臉草圖作為輸入，以所述多幀樣本圖像作為標簽，訓練初始網絡模型，得到所述視頻生成網絡。

7.根據權利要求6所述的方法，其中，所述訓練初始網絡模型，得到所述視頻生成網絡包括：

采用光流估計對所述樣本視頻幀之間的時間動態性能進行建模；以及

采用嘴部掩碼(mouth mask)函數作為所述視頻生成網絡的損失函數。

8.根據權利要求7所述的方法，其中，所述mouth mask函數表示如下：

其中，T表示所述樣本圖像的幀數；

x_t表示第t幀所述樣本圖像；

表示將第t幀所述樣本人臉草圖輸入到所述初始網絡模型中生成的輸出樣本圖像；

m_t表示第t幀所述樣本圖像對應的嘴部掩碼。

9.根據權利要求1所述的方法，其中，所述使用視頻生成網絡基于所述多幀合成人臉草圖合成虛假人臉動畫使用下式實現：

其中，表示已生成的L幀圖像；

表示所述合成人臉草圖序列以及嘴部掩碼，s_t表示第t幀所述合成人臉草圖，m_t表示第t幀所述合成人臉草圖對應的嘴部掩碼；

表示第t幀所述合成人臉草圖對應的遮擋掩碼(occlusion mask)；

表示生成的第t幀偽參考圖(Hallucinated image)，用于合成被遮擋的背景區域；

表示生成的第t幀嘴部區域的圖像；

表示和間估計的光流，通過可以從估計得到

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學，未經中國科學技術大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110021844.4/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種蓄電池生產用覆紙設備的定位裝置
下一篇：一種多孔的輕質抹灰石膏及其使用方法

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06T 一般的圖像數據處理或產生
G06T13-00 動畫制作
G06T13-20 .3D［三維］動畫
G06T13-80 .2D［二維］動畫，如使用精靈sprites
G06T13-40 ..關于角色的，例如：人類、動物或虛幻人物
G06T13-60 ..關于自然景觀的，例如：雨、雪、水或植物

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】