[發明專利]一種基于人體交互動作的體驗者動作生成方法有效
| 申請號: | 201811511163.0 | 申請日: | 2018-12-11 |
| 公開(公告)號: | CN109657589B | 公開(公告)日: | 2022-11-29 |
| 發明(設計)人: | 趙海英;白旭;劉菲;李瓊 | 申請(專利權)人: | 北京牡丹電子集團有限責任公司數字電視技術中心 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06T19/00 |
| 代理公司: | 北京世譽鑫誠專利代理有限公司 11368 | 代理人: | 孫國棟 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 人體 交互 動作 體驗 生成 方法 | ||
1.一種基于人體交互動作的體驗者動作生成方法,其特征在于:包括以下步驟:
步驟1、收集體驗者的動作圖像,對圖片進行預處理,構成只有體驗者單人的真實動作圖像數據集;
步驟2、將體驗者的真實動作數據集中的每張真實動作圖像經過openpose算法處理提取出人體動作圖像,將預處理后的真實動作圖像與提取出的人體動作圖像相配對得到若干圖像對,并對所述圖像對劃分,得到訓練集和驗證集;
步驟3、構建由人體動作圖像生成體驗者真實動作圖像的模型,該模型包括生成器G和判別器D;生成器G用來模擬真實的數據分布,使得生成圖像的數據分布接近真實動作圖像x的數據分布p(x|s,l),s是根據真實動作圖像提取的人體動作圖像,為生成圖像,l是風格標簽;真實動作圖像x和風格標簽作為生成器G的輸入,該生成器G輸出生成圖像
判別器D用來判斷輸入圖像的來源;當輸入的信息是真實圖像時,判別器D輸出結果為1;輸入的信息為生成圖像時,判別器D輸出結果為0;
使用訓練集對生成器G和判別器D進行訓練,訓練的損失函數為L=Lpix+LVGG+Llap+LGAN,Lpix為生成圖像跟真實動作圖像x之間的像素損失,LVGG為生成圖像跟真實動作圖像x之間的VGG損失,Llap為生成圖像跟真實動作圖像x之間的拉普拉斯金字塔特征損失,LGAN為生成圖像跟真實動作圖像x之間的生成式對抗網絡的損失;
其中,φ為預訓練的VGG網絡模型;
Lj是圖像下采樣的第j個拉普拉斯金字塔特征值;
E(s,x,l)[logD(x,s,l)]是函數logD(x,s,l)的期望;是函數的期望;
步驟4、使用驗證集對訓練完成后的生成器G進行驗證;
步驟5、收集多個風格的具有標準舞蹈動作舞蹈視頻,對舞蹈視頻的每一幀圖像經過openpose算法處理,得到若干人體舞蹈動作圖像,將人體舞蹈動作圖像和人為設定的風格標簽作為生成器G的輸入,由生成器G輸出體驗者的生成圖像并轉換為體驗者的舞蹈視頻。
2.根據權利要求1所述的基于人體交互動作的體驗者動作生成方法,其特征在于:風格標簽l使用One-hot進行編碼。
3.根據權利要求1所述的基于人體交互動作的體驗者動作生成方法,其特征在于:生成器G包含兩個步長為2的卷積層,8個殘差網絡模塊以及2個步長為1/2的解卷積層,每個殘差網絡模塊包含卷積層,Instance norm層以及ReLU層,在每一個殘差網絡模塊的第一個卷積層后,Dropout的概率值取0.5。
4.根據權利要求1所述的基于人體交互動作的體驗者動作生成方法,其特征在于:判別器D全部由卷積層構成,使用馬爾可夫隨機場形式的PatchGAN結構,所有的非線性激活層使用LeakyReLU,alpha=0.2,使用WGAN-GP進行訓練。
5.根據權利要求1所述的基于人體交互動作的體驗者動作生成方法,其特征在于:步驟3中的模型還包括有分類器C,分類器C能夠對目標圖像進行風格分類,確定目標圖像屬于哪一種風格,損失函數優化為L=Lpix+LVGG+Llap+LGAN+Lc,其中,Lc為生成圖像跟真實動作圖像x之間風格標簽的損失,為多類交叉熵損失函數。
6.根據權利要求1所述的基于人體交互動作的體驗者動作生成方法,其特征在于:分類器C為殘差網絡或者VGG網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京牡丹電子集團有限責任公司數字電視技術中心,未經北京牡丹電子集團有限責任公司數字電視技術中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811511163.0/1.html,轉載請聲明來源鉆瓜專利網。





