[發明專利]一種面部視頻編碼方法、解碼方法及裝置在審
| 申請號: | 202210085777.7 | 申請日: | 2022-01-25 |
| 公開(公告)號: | CN114401406A | 公開(公告)日: | 2022-04-26 |
| 發明(設計)人: | 王釗;陳柏林;葉琰;王詩淇 | 申請(專利權)人: | 阿里巴巴(中國)有限公司 |
| 主分類號: | H04N19/184 | 分類號: | H04N19/184;H04N19/42;H04N19/61;G06V20/40 |
| 代理公司: | 北京合智同創知識產權代理有限公司 11545 | 代理人: | 李杰 |
| 地址: | 310051 浙江省杭州市濱江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面部 視頻 編碼 方法 解碼 裝置 | ||
本申請實施例提供了一種面部視頻編碼方法、解碼方法及裝置。面部視頻編碼方法包括:獲取待編碼的目標面部視頻幀和參考幀列表中的多個初始參考面部視頻幀;分別對多個初始參考面部視頻幀和目標面部視頻幀進行編碼,得到面部視頻比特流。本申請實施例中基于多個參考面部視頻幀進行編碼和解碼操作,得到融合面部視頻幀,其紋理質量和運動信息則同時參考了多個不同的參考面部視頻幀,因此,重建得到的融合面部視頻幀與目標面部視頻幀之間的質量差異較小,提高了面部視頻幀的重建質量。
技術領域
本申請實施例涉及計算機技術領域,尤其涉及一種面部視頻編碼方法、解碼方法及裝置。
背景技術
隨著視頻編碼技術不斷發展,為了提高視頻編碼性能,出現了多種多樣的視頻編碼算法。例如:傳統的采用基于塊的運動估計、離散余弦變換等方法進行的視頻編碼算法;基于深度學習的端到端視頻編碼算法,等等。
目前,現有視頻編碼算法,在進行面部視頻編碼及解碼時,通常選擇視頻中的第一幀作為參考幀,對后續視頻幀進行編碼及解碼,以得到對應的重建面部視頻幀。但是,這樣得到的重建面部視頻幀,與待編碼的原面部視頻幀相比,其紋理質量較差,同時,運動描述的精度也較低。也就是說,現有的上述視頻編碼算法,得到的重建面部視頻幀的質量較差。
發明內容
有鑒于此,本申請實施例提供一種面部視頻編碼方法、解碼方法及裝置,以至少部分解決上述問題。
根據本申請實施例的第一方面,提供了一種面部視頻編碼方法,包括:
獲取待編碼的目標面部視頻幀和參考幀列表中的多個初始參考面部視頻幀;
分別對所述多個初始參考面部視頻幀和所述目標面部視頻幀進行編碼,得到面部視頻比特流。
根據本申請實施例的第二方面,提供了一種面部視頻解碼方法,包括:
獲取面部視頻比特流,所述面部視頻比特流包括:多個編碼后參考面部視頻幀和編碼后緊湊特征信息;所述編碼后緊湊特征信息表征待重建的目標面部視頻幀的關鍵特征信息;
分別解碼所述多個編碼后參考面部視頻幀,得到多個參考面部視頻幀;
解碼所述編碼后緊湊特征信息,得到所述目標面部視頻幀的目標緊湊特征;
基于所述多個參考面部視頻幀和所述目標緊湊特征,進行面部視頻幀重建,得到與所述目標面部視頻幀對應的融合面部視頻幀。
根據本申請實施例的第三方面,提供了一種參考面部視頻幀生成方法,包括:
獲取目標面部視頻幀和參考幀列表中的多個初始參考面部視頻幀;
計算當前面部視頻幀與各初始參考面部視頻幀間的信息差異值,所述信息差異值表征當前面部視頻幀中包含的信息與各初始參考面部視頻幀中包含的信息之間的差異程度;
若存在大于預設閾值的信息差異值,則將當前面部視頻幀作為新增參考面部視頻幀添加至所述參考幀列表。
據本申請實施例的第四方面,提供了一種模型訓練方法,包括:
分別對多個初始參考面部視頻幀樣本和目標面部視頻幀樣本進行編碼,得到面部視頻比特流樣本;
解碼所述面部視頻比特流樣本,得到所述多個初始參考面部視頻幀樣本和所述目標面部視頻幀樣本的目標緊湊特征樣本;
基于每個參考面部視頻幀樣本和所述目標緊湊特征樣本,得到每個參考面部視頻幀樣本對應的驅動信息樣本;
將各參考面部視頻幀樣本和對應的各驅動信息樣本輸入初始第二生成模型,得到分別與各參考面部視頻幀樣本對應的初始重建面部視頻幀樣本;
將各初始重建面部視頻幀樣本輸入初始融合模型,得到融合面部視頻幀樣本;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴(中國)有限公司,未經阿里巴巴(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210085777.7/2.html,轉載請聲明來源鉆瓜專利網。





