[發明專利]一種唇形同步的視頻生成方法、裝置、設備及存儲介質在審
| 申請號: | 202011372011.4 | 申請日: | 2020-11-30 |
| 公開(公告)號: | CN112562720A | 公開(公告)日: | 2021-03-26 |
| 發明(設計)人: | 李權;王倫基;葉俊杰;成秋喜;胡玉針;李嘉雄;朱杰;劉華清;韓藍青 | 申請(專利權)人: | 清華珠三角研究院;賽業(廣州)生物科技有限公司 |
| 主分類號: | G10L21/10 | 分類號: | G10L21/10;G10L21/14;G10L21/18;G10L25/57;G06K9/00 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | ??玛?/td> |
| 地址: | 510530 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 形同 視頻 生成 方法 裝置 設備 存儲 介質 | ||
本發明公開了一種唇形同步的視頻生成方法、裝置、設備及存儲介質,方法包括:獲取了原始視頻數據后,對所述原始視頻數據中的語音數據進行人物標注,得到第一數據,并對標注好的原始視頻數據進行人臉檢測,得到第二數據,然后根據所述第一數據和所述第二數據,訓練得到生成網絡、唇形同步判別網絡和圖像質量判別網絡,并根據所述生成網絡、唇形同步判別網絡和圖像質量判別網絡構建人物唇形生成模型,最后通過所述人物唇形生成模型對輸入的序列圖片進行處理,生成唇形同步的圖像數據。本發明能夠準確生成視頻中人物講話時的唇形圖像,可廣泛應用于視頻數據處理技術領域。
技術領域
本發明涉及視頻數據處理技術領域,尤其是一種唇形同步的視頻生成方法、裝置、設備及存儲介質。
背景技術
隨著視頻內容豐富多樣性不斷的增長,對視頻內容的創作方式提出了新的需求,讓這些視頻可以通過不同的語言觀看也是一個急需解決的關鍵問題。例如一堂系列講座,或者一個大范圍的新聞演講,一部非常好看的電影,甚至是非常有趣的動畫。如果將它們翻譯成所需的目標語言,這樣讓更多不同語言環境下的觀眾都能更好的觀看接觸到這個視頻。通過這樣的方式翻譯說話的面部視頻或創作新的視頻,需要解決的關鍵問題是糾正口型,并且使之與目標語音相匹配。
目前的一些技術需要在訓練中看到的特定人物的靜態圖像或者視頻人物動作和背景沒有復雜的變化,才能實現人物唇形生成。然而,在復雜動態背景、無限制的說話人臉視頻中,就無法準確地改變任意身份的嘴唇動作,導致視頻的人物唇形部分與新音頻不同步。
發明內容
有鑒于此,本發明實施例提供一種準確性高的唇形同步的視頻生成方法、裝置、設備及存儲介質。
本發明的一個方面提供了一種唇形同步的視頻生成方法,包括:
獲取原始視頻數據,所述原始視頻數據包括人物在不同場景下的語音數據和圖像數據;
對所述原始視頻數據中的語音數據進行人物標注,得到第一數據,所述第一數據用于確定每一段語音數據對應的人臉在視頻圖像中位置;
對標注好的原始視頻數據進行人臉檢測,得到第二數據,所述第二數據用于確定每一幀圖像中人臉的位置;
根據所述第一數據和所述第二數據,訓練得到生成網絡、唇形同步判別網絡和圖像質量判別網絡;所述唇形同步判別網絡用于判斷人物唇形與人物音頻的同步性,所述圖像質量判別網絡用于判斷生成圖像的真假與質量;
根據所述生成網絡、唇形同步判別網絡和圖像質量判別網絡構建人物唇形生成模型;
通過所述人物唇形生成模型對輸入的序列圖片進行處理,生成唇形同步的圖像數據。
在一些實施例中,所述方法還包括對原始視頻數據中的語音數據和圖像數據進行預處理;
具體地,所述對原始視頻數據中的語音數據進行預處理包括:
將語音數據進行歸一化處理,得到音頻波形數據;
將所述音頻波形數據轉化為聲音頻譜圖,頻譜圖包括但不限于梅爾頻譜、線性頻譜;
所述對原始視頻數據中的圖像數據進行預處理包括:
將圖像數據的序列幀中每一幀圖像包含唇形的下半部分像素點置0,以使所述生成網絡生成補全唇形圖像;
確定與所述序列幀數量相同的參考幀,所述參考幀用于編碼人物特征信息。
在一些實施例中,所述生成網絡包括聲音編碼器、圖像編碼器、圖像解碼生成器;
其中,所述聲音編碼器,用于通過卷積編碼從預處理得到的聲音頻譜圖中提取所述第一數據和所述第二數據中的聲音特征;
所述圖像編碼器,用于通過卷積編碼從預處理得到的圖像數據的序列幀中提取圖像特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華珠三角研究院;賽業(廣州)生物科技有限公司,未經清華珠三角研究院;賽業(廣州)生物科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011372011.4/2.html,轉載請聲明來源鉆瓜專利網。





