[發(fā)明專利]實時驅(qū)動虛擬人的方法、裝置、電子設(shè)備及介質(zhì)在審
| 申請?zhí)枺?/td> | 202010420720.9 | 申請日: | 2020-05-18 |
| 公開(公告)號: | CN113689880A | 公開(公告)日: | 2021-11-23 |
| 發(fā)明(設(shè)計)人: | 樊博;陳偉;陳曦;孟凡博;劉愷;張克寧;段文君 | 申請(專利權(quán))人: | 北京搜狗科技發(fā)展有限公司 |
| 主分類號: | G10L21/10 | 分類號: | G10L21/10;G10L25/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京華沛德權(quán)律師事務(wù)所 11302 | 代理人: | 房德權(quán) |
| 地址: | 100084 北京市海淀區(qū)中關(guān)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 實時 驅(qū)動 虛擬 方法 裝置 電子設(shè)備 介質(zhì) | ||
本說明書實施例公開了一種實時驅(qū)動虛擬人的方法,獲取用于驅(qū)動虛擬人的待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括文本數(shù)據(jù)和語音數(shù)據(jù)中的至少一種;使用端到端模型對所述待處理數(shù)據(jù)進(jìn)行處理,確定出所述待處理數(shù)據(jù)對應(yīng)的聲學(xué)特征序列、面部特征序列和肢體特征序列;將所述聲學(xué)特征序列、所述面部特征序列和所述肢體特征序列輸入到已訓(xùn)練的肌肉模型中,通過所述肌肉模型驅(qū)動虛擬人。如此,通過端到端模型能夠在更短時間內(nèi)獲取聲學(xué)特征序列、面部特征序列和肢體特征序列;再將得到的序列輸入到肌肉模型中,直接驅(qū)動虛擬人,極大的降低了其計算量和數(shù)據(jù)傳輸量,且還提高了計算效率,使得驅(qū)動虛擬人的實時性得以較大提高。
技術(shù)領(lǐng)域
本說明書實施例涉及虛擬人處理技術(shù)領(lǐng)域,尤其涉及一種實時驅(qū)動虛擬人的方法、裝置、電子設(shè)備及介質(zhì)。
背景技術(shù)
數(shù)字人類(Digital Human)簡稱數(shù)字人,是利用計算機(jī)模擬真實人類的一種綜合性的渲染技術(shù),也被稱為虛擬人類、超寫實人類、照片級人類。由于人對真人太熟悉了,通過花費大量時間可以獲取使得3D靜態(tài)模型很真,但在驅(qū)動3D靜態(tài)模型進(jìn)行動作時,即使是一個細(xì)微的表情都會重新建模,由于模型的真實度非常高會導(dǎo)致建模會需要進(jìn)行大量的數(shù)據(jù)進(jìn)行計算,其計算過程較長,通常模型的一個動作可能需要一個小時或幾個小時的計算才能實現(xiàn),導(dǎo)致驅(qū)動的實時性能非常差。
發(fā)明內(nèi)容
本說明書實施例提供了一種實時驅(qū)動虛擬人的方法、裝置、電子設(shè)備及介質(zhì),能夠在實時驅(qū)動虛擬人。
本說明書實施例第一方面提供了一種實時驅(qū)動虛擬人的方法,包括:
獲取用于驅(qū)動虛擬人的待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括文本數(shù)據(jù)和語音數(shù)據(jù)中的至少一種;
使用端到端模型對所述待處理數(shù)據(jù)進(jìn)行處理,確定出所述待處理數(shù)據(jù)對應(yīng)的聲學(xué)特征序列、面部特征序列和肢體特征序列;
將所述聲學(xué)特征序列、所述面部特征序列和所述肢體特征序列輸入到已訓(xùn)練的肌肉模型中,通過所述肌肉模型驅(qū)動虛擬人;
其中,所述使用端到端模型對所述待處理數(shù)據(jù)進(jìn)行處理,包括:
獲取所述待處理數(shù)據(jù)的文本特征和時長特征;
根據(jù)所述文本特征和所述時長特征,確定出所述聲學(xué)特征序列;
根據(jù)所述文本特征和所述時長特征,確定出所述面部特征序列和所述肢體特征序列。
可選的,所述獲取所述待處理數(shù)據(jù)的文本特征和時長特征,包括:
通過fastspeech模型獲取所述文本特征;
通過時長模型獲取所述時長特征,其中,所述時長模型為深度學(xué)習(xí)模型。
可選的,若訓(xùn)練輸出聲學(xué)特征序列的fastspeech模型為第一fastspeech模型,以及訓(xùn)練輸出面部特征序列和肢體特征序列的的fastspeech模型為第二fastspeech模型,所述根據(jù)所述文本特征和所述時長特征,確定出所述聲學(xué)特征序列,包括:
將所述文本特征和所述時長特征輸入到第一fastspeech模型中,得到所述聲學(xué)特征序列;
所述根據(jù)所述文本特征和所述時長特征,確定出所述聲學(xué)特征序列,包括:
將所述文本特征和所述時長特征輸入到第二fastspeech模型中,得到所述面部特征序列和所述肢體特征序列。
可選的,所述將所述聲學(xué)特征序列、所述面部特征序列和所述肢體特征序列輸入到已訓(xùn)練的肌肉模型中,包括:
將所述聲學(xué)特征序列、所述面部特征序列和所述肢體特征序列進(jìn)行融合,得到融合特征序列;
將所述融合特征序列輸入到所述肌肉模型中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京搜狗科技發(fā)展有限公司,未經(jīng)北京搜狗科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010420720.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





