[發(fā)明專利]基于語(yǔ)義的音頻驅(qū)動(dòng)數(shù)字人生成方法及系統(tǒng)在審

申請(qǐng)?zhí)枺?/td>	202011382282.8	申請(qǐng)日：	2020-12-01
公開（公告）號(hào)：	CN112562722A	公開（公告）日：	2021-03-26
發(fā)明（設(shè)計(jì)）人：	王濤;徐常亮	申請(qǐng)（專利權(quán)）人：	新華智云科技有限公司
主分類號(hào)：	G10L21/10	分類號(hào)：	G10L21/10;G10L15/18;G10L15/16;G10L15/02;G10L25/57;G06K9/00;G06T15/00;G06N3/04;G06N3/08
代理公司：	杭州裕陽(yáng)聯(lián)合專利代理有限公司 33289	代理人：	田金霞
地址：	310012 浙江省杭州市***	國(guó)省代碼：	浙江;33
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于語(yǔ)義音頻驅(qū)動(dòng) 數(shù)字人生成方系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開一種基于語(yǔ)義的音頻驅(qū)動(dòng)數(shù)字人生成方法及系統(tǒng)，其中生成方法包括以下步驟：獲取目標(biāo)音頻和第一人臉圖像序列；對(duì)所述目標(biāo)音頻進(jìn)行特征提取，獲得相應(yīng)的音頻特征；將所述音頻特征輸入至預(yù)訓(xùn)練的語(yǔ)義轉(zhuǎn)換網(wǎng)絡(luò)，由所述語(yǔ)義轉(zhuǎn)換網(wǎng)絡(luò)將所述音頻特征進(jìn)行語(yǔ)義轉(zhuǎn)換，獲得相應(yīng)的語(yǔ)義運(yùn)動(dòng)序列，所述語(yǔ)義運(yùn)動(dòng)序列包括若干個(gè)嘴部語(yǔ)義圖；基于第一人臉圖像序列獲取所述嘴部語(yǔ)義圖相同數(shù)量的待渲染人臉圖像，待渲染人臉圖像的嘴部區(qū)域被遮擋，基于所述嘴部語(yǔ)義圖和所述待渲染人臉圖像進(jìn)行人臉合成，生成合成人臉序列。本發(fā)明通過語(yǔ)義轉(zhuǎn)換網(wǎng)絡(luò)實(shí)現(xiàn)音頻與面部語(yǔ)義的轉(zhuǎn)換，且利用面部語(yǔ)義達(dá)到對(duì)口型的精確表達(dá)。

技術(shù)領(lǐng)域

本發(fā)明涉及機(jī)器學(xué)習(xí)領(lǐng)域，尤其涉及一種基于語(yǔ)義的音頻驅(qū)動(dòng)數(shù)字人生成方法及系統(tǒng)。

背景技術(shù)

音頻驅(qū)動(dòng)所生成的數(shù)字人同步說話動(dòng)作的視頻廣泛應(yīng)用于多種視頻分享的場(chǎng)景，例如新聞播報(bào)、培訓(xùn)分享，廣告宣傳等場(chǎng)景；

參照公布號(hào)為CN1032188842所公開的一種語(yǔ)音同步驅(qū)動(dòng)三維人臉口型與面部姿勢(shì)動(dòng)畫的方法，通過提取視頻幀中各聲韻母所對(duì)應(yīng)的基于MPEG-4定義的口型特征參數(shù)和面部姿勢(shì)特征參數(shù)，然后計(jì)算各特征點(diǎn)坐標(biāo)與標(biāo)準(zhǔn)幀坐標(biāo)的差值Vel，再計(jì)算按MPEG-4定義的人臉上的對(duì)應(yīng)尺度參考量P，通過差值Vel和尺度參考量P計(jì)算得到人臉運(yùn)動(dòng)參數(shù)；

該專利申請(qǐng)采用所構(gòu)建的三維人臉作為數(shù)字人，建模所生成的人臉與真實(shí)人臉存在較大差別，不適用于新聞播報(bào)、培訓(xùn)分享等要求數(shù)字人臉與真實(shí)人臉一致的場(chǎng)合；

由于人臉運(yùn)動(dòng)和說話是一個(gè)非常精細(xì)復(fù)雜的過程，用特征點(diǎn)坐標(biāo)只能初步表征人臉運(yùn)動(dòng)，并且人臉特征點(diǎn)定位存在誤差，且人臉運(yùn)動(dòng)和說話存在個(gè)體差異，該方法通過計(jì)算各特征點(diǎn)坐標(biāo)與標(biāo)準(zhǔn)幀坐標(biāo)的差值Vel和人臉上的對(duì)應(yīng)尺度參考量P得到運(yùn)動(dòng)參數(shù)，未考慮個(gè)體說話的差異性；該方法關(guān)聯(lián)各聲韻母與口型面部姿勢(shì)特征參數(shù)，而聲音的音調(diào)，語(yǔ)種，快慢都與面部運(yùn)動(dòng)有關(guān)，該方法局限性大。

發(fā)明內(nèi)容

本發(fā)明針對(duì)現(xiàn)有技術(shù)中的缺點(diǎn)，提供了對(duì)面部表達(dá)更準(zhǔn)確精細(xì)的一種基于語(yǔ)義的音頻驅(qū)動(dòng)數(shù)字人生成方法及系統(tǒng)，適用于要求數(shù)字人與目標(biāo)人物相近似的場(chǎng)合。

為了解決上述技術(shù)問題，本發(fā)明通過下述技術(shù)方案得以解決：

一種基于語(yǔ)義的音頻驅(qū)動(dòng)數(shù)字人生成方法，包括以下步驟：

獲取目標(biāo)音頻和目標(biāo)人臉圖像序列，對(duì)所述目標(biāo)人臉圖像序列中各目標(biāo)人臉圖像的嘴部區(qū)域做掩膜處理后，獲得相應(yīng)的第一人臉圖像序列；

對(duì)所述目標(biāo)音頻進(jìn)行特征提取，獲得相應(yīng)的音頻特征；

將所述音頻特征輸入至預(yù)訓(xùn)練的語(yǔ)義轉(zhuǎn)換網(wǎng)絡(luò)，由所述語(yǔ)義轉(zhuǎn)換網(wǎng)絡(luò)將所述音頻特征進(jìn)行語(yǔ)義轉(zhuǎn)換，獲得相應(yīng)的語(yǔ)義運(yùn)動(dòng)序列，所述語(yǔ)義運(yùn)動(dòng)序列包括若干個(gè)嘴部語(yǔ)義圖；

基于第一人臉圖像序列構(gòu)建第二人臉圖像序列，所述第二人臉圖像序列包含與所述嘴部語(yǔ)義圖相同數(shù)量的待渲染人臉圖像，基于所述嘴部語(yǔ)義圖和所述待渲染人臉圖像進(jìn)行人臉合成，生成合成人臉序列，所述合成人臉序列中包含與各嘴部語(yǔ)義圖一一對(duì)應(yīng)的合成人臉。

作為一種可實(shí)施方式，所述語(yǔ)義轉(zhuǎn)換網(wǎng)絡(luò)包括循環(huán)神經(jīng)網(wǎng)絡(luò)和上采樣卷積神經(jīng)網(wǎng)絡(luò)；

所述循環(huán)神經(jīng)網(wǎng)絡(luò)，用于將所述音頻特征轉(zhuǎn)換為表情向量：

所述上采樣卷積神經(jīng)網(wǎng)絡(luò)，用于基于所述表情向量生成語(yǔ)義運(yùn)動(dòng)序列。

作為一種可實(shí)施方式：

將嘴部語(yǔ)義圖分別與其相對(duì)應(yīng)的待渲染人臉圖像進(jìn)行連接，獲得相應(yīng)的待合成數(shù)據(jù)；

將所述待合成數(shù)據(jù)輸入至預(yù)設(shè)的神經(jīng)渲染網(wǎng)絡(luò)，由所述神經(jīng)渲染網(wǎng)絡(luò)基于所述嘴部語(yǔ)義圖對(duì)所述待渲染人臉圖像合成渲染，生成相對(duì)應(yīng)的合成人臉。

作為一種可實(shí)施方式，預(yù)訓(xùn)練語(yǔ)義轉(zhuǎn)換網(wǎng)絡(luò)的步驟為：

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新華智云科技有限公司，未經(jīng)新華智云科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011382282.8/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語(yǔ)音分析或合成；語(yǔ)音識(shí)別；音頻分析或處理
G10L21-00 為了改變語(yǔ)音信號(hào)的質(zhì)量或其可識(shí)度而處理語(yǔ)音信號(hào)，以產(chǎn)生另一種可聽的或非可聽的信號(hào)，例如視覺信號(hào)或觸覺信號(hào)
G10L21-02 .語(yǔ)音增強(qiáng)，例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語(yǔ)音轉(zhuǎn)換成非可聽表達(dá)形式，例如語(yǔ)音可視化、觸覺輔助的語(yǔ)音處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】