[發明專利]面部信息的生成方法及裝置在審
| 申請號: | 202011281673.0 | 申請日: | 2020-11-16 |
| 公開(公告)號: | CN114513678A | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 綦金瑋;張邦;潘攀;徐盈輝 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | H04N21/2187 | 分類號: | H04N21/2187;H04N21/2343;H04N21/431;G10L21/10;G10L21/18;G10L13/04;G10L13/047;G10L13/08;G10L25/24;G10L25/30;G06V40/16;G06V10/46;G06V10/82;G0 |
| 代理公司: | 北京博浩百睿知識產權代理有限責任公司 11134 | 代理人: | 謝湘寧;張文華 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面部 信息 生成 方法 裝置 | ||
本發明公開了一種面部信息的生成方法及裝置。其中,該方法包括:獲取虛擬主播播報過程中輸出的音頻信息,其中,音頻信息為將播報文本進行語音合成而生成的信息,且音頻信息包括連續的多幀音頻;基于神經網絡模型對音頻信息進行處理,預測得到虛擬主播嘴部的動作序列;將情緒狀態標簽結合至動作序列中,生成虛擬主播播報過程中的面部動作,其中,情緒狀態標簽為基于播報文本生成的情緒動作參數。本發明解決了現有技術中根據虛擬主播的語音播報驅動面部動作的準確性較低的技術問題。
技術領域
本發明涉及信息處理技術領域,具體而言,涉及一種面部信息的生成方法及裝置。
背景技術
在直播的虛擬主播場景中,如何根據語音播報,通過深度學習的方法為虛擬主播生成準確且生動自然的面部動作,是提升虛擬主播表現力的關鍵問題。虛擬主播的面部動作可以拆解為兩個部分,一方面是嘴型動作,需要跟隨虛擬主播在播報商品介紹中發不同的音節時做出和聲音匹配的嘴型,例如,發‘啊’的音時嘴部雙唇放松、下頜張大,而發‘唔’的音時需要嘴部雙唇收縮;另一方面是面部表情,需要根據虛擬主播的播報內容做出合適的面部表情動作,例如在說出“推薦”、“特別好”等短語時面部需要做出高興的表情,而對于“困擾”、“慘不忍睹”等短語時則需要做出悲傷的表情,通過面部的表情變化能夠讓虛擬主播的播報更加自然生動。然而現有的語音驅動面部動作的方法,針對嘴型動作的生成,往往通過聲音直接預測面部動作,缺少其他輔助信息(如人臉關鍵點、音素標注)的補充約束,導致生成的嘴型動作不夠精準;另外,針對面部表情的生成,往往在一個完整的聲音片段中只能做出同一類型的表情動作,而難以根據播報文本中的不同情感關鍵詞做出動態變化的表情動作。
針對上述的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種面部信息的生成方法及裝置,以至少解決現有技術中根據虛擬主播的語音播報驅動面部動作的準確性較低的技術問題。
根據本發明實施例的一個方面,提供了一種面部信息的生成方法,包括:獲取虛擬主播播報過程中輸出的音頻信息,其中,所述音頻信息為將播報文本進行語音合成而生成的信息,且所述音頻信息包括連續的多幀音頻;基于神經網絡模型對所述音頻信息進行處理,預測得到所述虛擬主播嘴部的動作序列;將情緒狀態標簽結合至所述動作序列中,生成所述虛擬主播播報過程中的面部動作,其中,所述情緒狀態標簽為基于所述播報文本生成的情緒動作參數。
可選的,基于神經網絡模型對所述音頻信息進行處理,預測得到所述虛擬主播嘴部的動作序列,包括:采用序列模型對所述音頻信息進行處理,預測得到所述虛擬主播在播報過程中臉部的關鍵部位的坐標和音素標簽;對所述臉部的關鍵部位的坐標、所述音素標簽和所述音頻信息進行拼接處理,生成拼接結果;采用嘴型動作預測模型對拼接結果進行處理,預測得到所述虛擬主播嘴部在播報過程中的動作序列。
可選的,所述序列模型包括:人臉關鍵點預測模型以及音素識別模型,其中,采用序列模型對所述音頻信息進行處理,預測得到所述虛擬主播在播報過程中臉部的關鍵部位的坐標和音素標簽,包括:提取所述音頻信息的梅爾頻率倒譜系數特征,其中,所述梅爾頻率倒譜系數特征為所述信息中每幀音頻的特征序列;采用所述人臉關鍵點預測模型和所述音素識別模型處理所述每幀音頻的特征序列,生成每幀音頻下臉部的關鍵部位的坐標和音素標簽。
可選的,獲取所述虛擬主播的嘴部在播報過程中的動作序列的過程中,所述虛擬主播臉部其他部位的動作序列為空。
可選的,在獲取虛擬主播播報過程中輸出的音頻信息之前,所述方法還包括:獲取所述播報文本;采用語音合成工具處理將所述播報文本進行合成生成所述虛擬主播播報的所述音頻信息。
可選的,所述方法還包括:解析所述播報文本,獲取所述播報文本中用于表征情緒特征的情緒關鍵詞;對所述情緒關鍵詞標注標簽信息,生成所述情緒狀態標簽,其中,所述標簽信息包括:所述情緒關鍵詞的播報時間戳、情緒特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011281673.0/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





