[發明專利]一種基于變分自編碼器的表情序列自動生成方法在審
| 申請號: | 202110776663.2 | 申請日: | 2021-07-09 |
| 公開(公告)號: | CN113505829A | 公開(公告)日: | 2021-10-15 |
| 發明(設計)人: | 商琳;張明月 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 胡建華;于瀚文 |
| 地址: | 210023 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 編碼器 表情 序列 自動 生成 方法 | ||
1.一種基于變分自編碼器的表情序列自動生成方法,其特征在于,包括如下步驟:
步驟1,預訓練變分自編碼器VAE;
步驟2,生成三元組:使用Oulu-CASIA數據集,對Oulu-CASIA數據集中的每一個視頻序列進行采樣,生成等間隔的三幀圖片,每三幀構成一個三元組;
步驟3,自監督訓練變分自編碼器VAE:使用深度度量學習方法,利用三元組中隱含的表情距離信息,用三元損失自監督訓練變分自編碼器VAE;
步驟4,生成表情序列。
2.根據權利要求1所述的方法,其特征在于,步驟1包括以下步驟:
步驟1-1,變分自編碼器VAE通過編碼器encoder將圖片x編碼為一個潛向量然后通過解碼器decoder將潛向量z解碼重建為圖片其中θ分別是編碼器和解碼器網絡的參數,表示通過可參數化的一簇分布來近似z的后驗分布,pθ(x|z)表示通過可參數化的一簇分布來近似x的分布;
步驟1-2,定義重建損失為Lrecon,用于度量輸入圖片和輸出圖片的差異,重建損失的權重因子為α:
表示從編碼器采樣z之后用解碼器重建x得到的對數似然;
步驟1-3,定義相對熵損失為LKL,相對熵損失的權重因子為β:
p(z)是z的先驗分布;DKL是相對熵,用于衡量任意兩個概率分布p(x),q(x)之間的距離;
步驟1-4,在網絡預訓練過程中,前N1輪設置β=0,N1~N2輪次設置β線性增長至1,每N3輪次更新一次,訓練損失為:αLrecon+βLKL。
3.根據權利要求2所述的方法,其特征在于,步驟1-3中,DKL的計算公式為:
4.根據權利要求3所述的方法,其特征在于,步驟2包括以下步驟:
步驟2-1,定義Oulu-CASIA數據集中每一個視頻序列為x1,x2,x3,...,xn,其中xn表示視頻序列的第n幀;
步驟2-2,從每一個視頻序列中按等間隔k采樣出所有滿足間隔條件的三元組,分別是xn-4,xn-2,xn,xn-4,xn-2,xn,xn-5,xn-3,xn-1,xn-6,xn-4,xn-2,xn-7,xn-5,xn-3,xn-8,xn-6,xn-4。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110776663.2/1.html,轉載請聲明來源鉆瓜專利網。





