[發明專利]一種唇形同步的視頻生成方法、裝置、設備及存儲介質在審
| 申請號: | 202011372011.4 | 申請日: | 2020-11-30 |
| 公開(公告)號: | CN112562720A | 公開(公告)日: | 2021-03-26 |
| 發明(設計)人: | 李權;王倫基;葉俊杰;成秋喜;胡玉針;李嘉雄;朱杰;劉華清;韓藍青 | 申請(專利權)人: | 清華珠三角研究院;賽業(廣州)生物科技有限公司 |
| 主分類號: | G10L21/10 | 分類號: | G10L21/10;G10L21/14;G10L21/18;G10L25/57;G06K9/00 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 常柯陽 |
| 地址: | 510530 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 形同 視頻 生成 方法 裝置 設備 存儲 介質 | ||
1.一種唇形同步的視頻生成方法,其特征在于,包括:
獲取原始視頻數據,所述原始視頻數據包括人物在不同場景下的語音數據和圖像數據;
對所述原始視頻數據中的語音數據進行人物標注,得到第一數據,所述第一數據用于確定每一段語音數據對應的人臉在視頻圖像中位置;
對標注好的原始視頻數據進行人臉檢測,得到第二數據,所述第二數據用于確定每一幀圖像中人臉的位置;
根據所述第一數據和所述第二數據,訓練得到生成網絡、唇形同步判別網絡和圖像質量判別網絡;所述生成網絡用于生成人物唇形圖像,所述唇形同步判別網絡用于判斷人物唇形與人物音頻的同步性,所述圖像質量判別網絡用于判斷生成圖像的真假與質量;
根據所述生成網絡、唇形同步判別網絡和圖像質量判別網絡構建人物唇形生成模型;
通過所述人物唇形生成模型對輸入的序列圖片進行處理,生成唇形同步的圖像數據。
2.根據權利要求1所述的一種唇形同步的視頻生成方法,其特征在于,所述方法還包括對原始視頻數據中的語音數據和圖像數據進行預處理;
具體地,所述對原始視頻數據中的語音數據進行預處理包括:
將語音數據進行歸一化處理,得到音頻波形數據;
將所述音頻波形數據轉化為聲音頻譜圖,頻譜圖包括但不限于梅爾頻譜、線性頻譜;
所述對原始視頻數據中的圖像數據進行預處理包括:
將圖像數據的序列幀中每一幀圖像包含唇形的下半部分像素點置0,以使所述生成網絡生成補全唇形圖像;
確定與所述序列幀數量相同的參考幀,所述參考幀用于編碼人物特征信息。
3.根據權利要求2所述的一種唇形同步的視頻生成方法,其特征在于,所述生成網絡包括聲音編碼器、圖像編碼器、圖像解碼生成器;
其中,所述聲音編碼器,用于通過卷積編碼從預處理得到的聲音頻譜圖中提取所述第一數據和所述第二數據中的聲音特征;
所述圖像編碼器,用于通過卷積編碼從預處理得到的圖像數據的序列幀中提取圖像特征;
所述圖像解碼生成器,用于根據所述聲音特征和所述圖像特征,生成人物唇形圖像。
4.根據權利要求1所述的一種唇形同步的視頻生成方法,其特征在于,所述人物唇形生成模型的目標損失函數為:
Loss=(1-Sw-Sg)·L1+Sw·Lsync+Sg·Lgen
其中,Sw為唇形同步判別網絡對整體損失值的影響;Sg為圖像質量判別網絡對整體損失值的影響;Loss為人物唇形生成模型總體損失函數值;L1為真實圖像與生成圖像的均方誤差損失值;Lsync為生成人物唇形視頻與音頻同步率的損失值;Lgen為圖像判別網絡對真實圖像與生成圖像判別損失值。
5.根據權利要求1所述的一種唇形同步的視頻生成方法,其特征在于,所述輸入的序列圖片帶有標簽限制條件;
所述標簽限制條件包括可變尺寸邊緣像素輪廓限制、人臉唇形關鍵點輪廓限制、頭部輪廓限制以及背景限制。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華珠三角研究院;賽業(廣州)生物科技有限公司,未經清華珠三角研究院;賽業(廣州)生物科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011372011.4/1.html,轉載請聲明來源鉆瓜專利網。





