[發明專利]虛擬形象合成方法、裝置、電子設備和存儲介質在審
| 申請號: | 202011301793.2 | 申請日: | 2020-11-19 |
| 公開(公告)號: | CN112465935A | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 李林;何山;胡金水;殷兵;劉聰 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G06T13/20 | 分類號: | G06T13/20;G06T13/40 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 程琛 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 虛擬 形象 合成 方法 裝置 電子設備 存儲 介質 | ||
本發明提供一種虛擬形象合成方法、裝置、電子設備和存儲介質,其中方法包括:確定待合成的語音數據的語音特征,以及與所述語音特征相對應的面部表情特征;對所述語音特征和所述面部表情特征進行融合,基于融合所得的特征合成表情與所述語音數據相匹配的虛擬形象視頻。本發明提供的方法、裝置、電子設備和存儲介質,對語音特征和面部表情特征進行融合,基于融合所得的特征合成虛擬形象視頻,面部表情特征的應用使得合成虛擬形象的表情能夠趨向于一致穩定,語音特征的應用降低面部表情特征的準確性對于虛擬形象合成準確性的影響,為虛擬形象合成提供更多口唇細節信息。從而保證虛擬形象視頻中虛擬形象的表情能夠自然匹配語音數據。
技術領域
本發明涉及圖像處理技術領域,尤其涉及一種虛擬形象合成方法、裝置、電子設備和存儲介質。
背景技術
虛擬形象是隨著語音合成技術、視頻生成技術發展而來的新的交互展示媒介,能夠極大提升人機交互自然度和體驗感。
目前虛擬形象的合成方法多是直接根據語音特征生成虛擬形象的口型區域圖像,從而實現語音和口型的同步對應。但是由于語音和口型之間的映射關系不唯一,生成結果并不穩定,由此合成的虛擬形象在輸出語音時,其對應的表情往往不夠逼真自然,用戶體驗較差。
發明內容
本發明提供一種虛擬形象合成方法、裝置、電子設備和存儲介質,用以解決現有的虛擬形象在輸出語音時對應的表情不夠逼真、自然的問題。
本發明提供一種虛擬形象合成方法,包括:
確定待合成的語音數據的語音特征,以及與所述語音特征相對應的面部表情特征;
對所述語音特征和所述面部表情特征進行融合,基于融合所得的特征合成表情與所述語音數據相匹配的虛擬形象視頻。
根據本發明提供一種的虛擬形象合成方法,所述對所述語音特征和所述面部表情特征進行融合,包括:
基于融合權重對所述語音特征和所述面部表情特征進行加權融合,所述融合權重是基于所述語音特征確定的。
根據本發明提供一種的虛擬形象合成方法,所述基于融合權重對所述語音特征和所述面部表情特征進行加權融合,包括:
對所述語音特征進行特征提取,得到所述融合權重以及語音特征圖;
對所述面部表情特征進行特征提取,得到與所述語音特征圖相同維度的表情特征圖;
基于所述融合權重,對所述語音特征圖和所述表情特征圖進行加權求和。
根據本發明提供一種的虛擬形象合成方法,所述基于融合所得的特征合成表情與所述語音數據相匹配的虛擬形象視頻,包括:
對虛擬形象掩膜圖像進行特征編碼,得到掩膜圖像特征;
基于所述掩膜圖像特征與融合所得的特征,確定整體形象特征;
對所述整體形象特征進行特征解碼,得到所述虛擬形象視頻。
根據本發明提供一種的虛擬形象合成方法,所述對所述語音特征和所述面部表情特征進行融合,基于融合所得的特征合成表情與所述語音數據相匹配的虛擬形象視頻,包括:
將所述語音特征和所述面部表情特征輸入至形象合成模型,得到所述形象合成模型輸出的所述虛擬形象視頻;
其中,所述形象合成模型是基于樣本語音特征及其相對應的樣本面部表情特征,以及形象判別模型訓練得到的,所述形象判別模型用于區分虛擬形象和真實形象。
根據本發明提供一種的虛擬形象合成方法,所述與所述語音特征相對應的面部表情特征是基于如下步驟確定的:
將所述語音特征輸入至表情映射模型,得到所述表情映射模型輸出的與所述語音特征相對應的面部表情特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011301793.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種大噸位絕緣子機械省力絲杠
- 下一篇:一種有載分接開關切換時序檢測方法





