[發明專利]一種基于BERT模型的嘴部動作驅動模型訓練方法及組件在審
| 申請號: | 202110423648.X | 申請日: | 2021-04-20 |
| 公開(公告)號: | CN113077536A | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 陳瀧翔;劉炫鵬;王鑫宇;劉云峰 | 申請(專利權)人: | 深圳追一科技有限公司 |
| 主分類號: | G06T13/20 | 分類號: | G06T13/20;G06T13/40;G06N3/08 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王云曉 |
| 地址: | 518000 廣東省深圳市南山區粵海街道*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 bert 模型 動作 驅動 訓練 方法 組件 | ||
本申請公開了一種基于BERT模型的嘴部動作驅動模型訓練方法及組件。本申請使用BERT模型將角色聲學特征的頻譜轉換為單音色特征或多音色融合特征,之后將該單音色特征或多音色融合特征作為嘴部動作驅動模型的訓練數據,從而訓練得到嘴部動作驅動模型。其中,單音色特征、多音色融合特征均是單特征,不像現有方案中需要設定多種音色的特征,因此BERT模型提高了訓練數據的質量,降低了訓練數據的復雜性和訓練成本,使用多音色融合特征還不會影響嘴部動作驅動模型的通用性。相應地,本申請提供的一種基于BERT模型的嘴部動作驅動模型訓練組件,也同樣具有上述技術效果。
技術領域
本申請涉及計算機技術領域,特別涉及一種基于BERT模型的嘴部動作驅動模型訓練方法及組件。
背景技術
在人物影像生成、電子動畫中的類人類角色動作渲染等領域,為了使得影像中的人物更加真實、自然,嘴部動作與語音的匹配是十分重要的,如何完成聲音到嘴部動作的映射是解決這一問題的關鍵。
現有的技術可以初步分為基于規則的方法與基于深度學習的方法兩種。
基于規則的方法利用類似字典的結構記錄由語言學家提供的音素與嘴部動作的對應關系,使用時通過查表的方式完成聲音到嘴部動作的映射。此方式需要的人工因素較多,其中專家數據庫的成本較為高昂,而且偏于定制化,無法靈活應用到多個場景。
基于深度學習的方法則直接將聲音特征輸入到神經網絡后,即可得到相關嘴部動作參數。此方式直接用各種音色的音頻訓練模型,雖然模型能覆蓋各種音色和場景,但訓練任務大,成本高。
對這兩種方法得到的嘴部動作進一步像素渲染等處理,最終可得到與聲音匹配的人物嘴部動作視頻動畫。
因此,如何降低訓練數據的復雜性和訓練成本,是本領域技術人員需要解決的問題。
發明內容
有鑒于此,本申請的目的在于提供一種基于BERT模型的嘴部動作驅動模型訓練方法及組件,以降低訓練數據的復雜性和訓練成本。其具體方案如下:
第一方面,本申請提供了一種基于BERT模型的嘴部動作驅動模型訓練方法,包括:
獲取訓練視頻,并提取所述訓練視頻中的音頻和圖像;
從所述音頻中提取角色聲學特征,從所述圖像中提取與所述角色聲學特征對應的嘴部動作參數;
利用BERT模型處理所述角色聲學特征的頻譜得到頻譜處理結果,并基于所述頻譜處理結果確定目標特征;所述目標特征為單音色特征或多音色融合特征;
以所述目標特征作為訓練輸入數據,以所述嘴部動作參數作為訓練輸出目標,訓練深度學習模型,以得到嘴部動作驅動模型。
優選地,所述利用BERT模型處理所述角色聲學特征的頻譜得到頻譜處理結果,并基于所述頻譜處理結果確定目標特征,包括:
利用所述BERT模型中的transformer模塊處理所述角色聲學特征的頻譜得到頻譜處理結果,并將所述頻譜處理結果確定為所述目標特征。
優選地,所述利用BERT模型處理所述角色聲學特征的頻譜得到頻譜處理結果,并基于所述頻譜處理結果確定目標特征,包括:
利用所述BERT模型中的transformer模塊處理所述角色聲學特征的頻譜得到頻譜處理結果;
利用所述BERT模型中的predictHead模塊處理所述頻譜處理結果得到所述目標特征。
優選地,所述從所述圖像數據中提取與所述角色聲學特征對應的嘴部動作參數,包括:
利用人臉檢測算法從所述圖像數據中提取嘴部關鍵點信息作為所述嘴部動作參數;
或
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳追一科技有限公司,未經深圳追一科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110423648.X/2.html,轉載請聲明來源鉆瓜專利網。





