[發(fā)明專利]基于語(yǔ)義的音頻驅(qū)動(dòng)數(shù)字人生成方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202011382282.8 | 申請(qǐng)日: | 2020-12-01 |
| 公開(公告)號(hào): | CN112562722A | 公開(公告)日: | 2021-03-26 |
| 發(fā)明(設(shè)計(jì))人: | 王濤;徐常亮 | 申請(qǐng)(專利權(quán))人: | 新華智云科技有限公司 |
| 主分類號(hào): | G10L21/10 | 分類號(hào): | G10L21/10;G10L15/18;G10L15/16;G10L15/02;G10L25/57;G06K9/00;G06T15/00;G06N3/04;G06N3/08 |
| 代理公司: | 杭州裕陽(yáng)聯(lián)合專利代理有限公司 33289 | 代理人: | 田金霞 |
| 地址: | 310012 浙江省杭州市*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 語(yǔ)義 音頻 驅(qū)動(dòng) 數(shù)字 人生 成方 系統(tǒng) | ||
本發(fā)明公開一種基于語(yǔ)義的音頻驅(qū)動(dòng)數(shù)字人生成方法及系統(tǒng),其中生成方法包括以下步驟:獲取目標(biāo)音頻和第一人臉圖像序列;對(duì)所述目標(biāo)音頻進(jìn)行特征提取,獲得相應(yīng)的音頻特征;將所述音頻特征輸入至預(yù)訓(xùn)練的語(yǔ)義轉(zhuǎn)換網(wǎng)絡(luò),由所述語(yǔ)義轉(zhuǎn)換網(wǎng)絡(luò)將所述音頻特征進(jìn)行語(yǔ)義轉(zhuǎn)換,獲得相應(yīng)的語(yǔ)義運(yùn)動(dòng)序列,所述語(yǔ)義運(yùn)動(dòng)序列包括若干個(gè)嘴部語(yǔ)義圖;基于第一人臉圖像序列獲取所述嘴部語(yǔ)義圖相同數(shù)量的待渲染人臉圖像,待渲染人臉圖像的嘴部區(qū)域被遮擋,基于所述嘴部語(yǔ)義圖和所述待渲染人臉圖像進(jìn)行人臉合成,生成合成人臉序列。本發(fā)明通過語(yǔ)義轉(zhuǎn)換網(wǎng)絡(luò)實(shí)現(xiàn)音頻與面部語(yǔ)義的轉(zhuǎn)換,且利用面部語(yǔ)義達(dá)到對(duì)口型的精確表達(dá)。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器學(xué)習(xí)領(lǐng)域,尤其涉及一種基于語(yǔ)義的音頻驅(qū)動(dòng)數(shù)字人生成方法及系統(tǒng)。
背景技術(shù)
音頻驅(qū)動(dòng)所生成的數(shù)字人同步說話動(dòng)作的視頻廣泛應(yīng)用于多種視頻分享的場(chǎng)景,例如新聞播報(bào)、培訓(xùn)分享,廣告宣傳等場(chǎng)景;
參照公布號(hào)為CN1032188842所公開的一種語(yǔ)音同步驅(qū)動(dòng)三維人臉口型與面部姿勢(shì)動(dòng)畫的方法,通過提取視頻幀中各聲韻母所對(duì)應(yīng)的基于MPEG-4定義的口型特征參數(shù)和面部姿勢(shì)特征參數(shù),然后計(jì)算各特征點(diǎn)坐標(biāo)與標(biāo)準(zhǔn)幀坐標(biāo)的差值Vel,再計(jì)算按MPEG-4定義的人臉上的對(duì)應(yīng)尺度參考量P,通過差值Vel和尺度參考量P計(jì)算得到人臉運(yùn)動(dòng)參數(shù);
該專利申請(qǐng)采用所構(gòu)建的三維人臉作為數(shù)字人,建模所生成的人臉與真實(shí)人臉存在較大差別,不適用于新聞播報(bào)、培訓(xùn)分享等要求數(shù)字人臉與真實(shí)人臉一致的場(chǎng)合;
由于人臉運(yùn)動(dòng)和說話是一個(gè)非常精細(xì)復(fù)雜的過程,用特征點(diǎn)坐標(biāo)只能初步表征人臉運(yùn)動(dòng),并且人臉特征點(diǎn)定位存在誤差,且人臉運(yùn)動(dòng)和說話存在個(gè)體差異,該方法通過計(jì)算各特征點(diǎn)坐標(biāo)與標(biāo)準(zhǔn)幀坐標(biāo)的差值Vel和人臉上的對(duì)應(yīng)尺度參考量P得到運(yùn)動(dòng)參數(shù),未考慮個(gè)體說話的差異性;該方法關(guān)聯(lián)各聲韻母與口型面部姿勢(shì)特征參數(shù),而聲音的音調(diào),語(yǔ)種,快慢都與面部運(yùn)動(dòng)有關(guān),該方法局限性大。
發(fā)明內(nèi)容
本發(fā)明針對(duì)現(xiàn)有技術(shù)中的缺點(diǎn),提供了對(duì)面部表達(dá)更準(zhǔn)確精細(xì)的一種基于語(yǔ)義的音頻驅(qū)動(dòng)數(shù)字人生成方法及系統(tǒng),適用于要求數(shù)字人與目標(biāo)人物相近似的場(chǎng)合。
為了解決上述技術(shù)問題,本發(fā)明通過下述技術(shù)方案得以解決:
一種基于語(yǔ)義的音頻驅(qū)動(dòng)數(shù)字人生成方法,包括以下步驟:
獲取目標(biāo)音頻和目標(biāo)人臉圖像序列,對(duì)所述目標(biāo)人臉圖像序列中各目標(biāo)人臉圖像的嘴部區(qū)域做掩膜處理后,獲得相應(yīng)的第一人臉圖像序列;
對(duì)所述目標(biāo)音頻進(jìn)行特征提取,獲得相應(yīng)的音頻特征;
將所述音頻特征輸入至預(yù)訓(xùn)練的語(yǔ)義轉(zhuǎn)換網(wǎng)絡(luò),由所述語(yǔ)義轉(zhuǎn)換網(wǎng)絡(luò)將所述音頻特征進(jìn)行語(yǔ)義轉(zhuǎn)換,獲得相應(yīng)的語(yǔ)義運(yùn)動(dòng)序列,所述語(yǔ)義運(yùn)動(dòng)序列包括若干個(gè)嘴部語(yǔ)義圖;
基于第一人臉圖像序列構(gòu)建第二人臉圖像序列,所述第二人臉圖像序列包含與所述嘴部語(yǔ)義圖相同數(shù)量的待渲染人臉圖像,基于所述嘴部語(yǔ)義圖和所述待渲染人臉圖像進(jìn)行人臉合成,生成合成人臉序列,所述合成人臉序列中包含與各嘴部語(yǔ)義圖一一對(duì)應(yīng)的合成人臉。
作為一種可實(shí)施方式,所述語(yǔ)義轉(zhuǎn)換網(wǎng)絡(luò)包括循環(huán)神經(jīng)網(wǎng)絡(luò)和上采樣卷積神經(jīng)網(wǎng)絡(luò);
所述循環(huán)神經(jīng)網(wǎng)絡(luò),用于將所述音頻特征轉(zhuǎn)換為表情向量:
所述上采樣卷積神經(jīng)網(wǎng)絡(luò),用于基于所述表情向量生成語(yǔ)義運(yùn)動(dòng)序列。
作為一種可實(shí)施方式:
將嘴部語(yǔ)義圖分別與其相對(duì)應(yīng)的待渲染人臉圖像進(jìn)行連接,獲得相應(yīng)的待合成數(shù)據(jù);
將所述待合成數(shù)據(jù)輸入至預(yù)設(shè)的神經(jīng)渲染網(wǎng)絡(luò),由所述神經(jīng)渲染網(wǎng)絡(luò)基于所述嘴部語(yǔ)義圖對(duì)所述待渲染人臉圖像合成渲染,生成相對(duì)應(yīng)的合成人臉。
作為一種可實(shí)施方式,預(yù)訓(xùn)練語(yǔ)義轉(zhuǎn)換網(wǎng)絡(luò)的步驟為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新華智云科技有限公司,未經(jīng)新華智云科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011382282.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:實(shí)時(shí)控制的T型管網(wǎng)三級(jí)軸流氣液分離系統(tǒng)
- 下一篇:醫(yī)學(xué)成像系統(tǒng)校準(zhǔn)時(shí)間確定方法、裝置和計(jì)算機(jī)設(shè)備
- 同類專利
- 專利分類
- 面向語(yǔ)義Web服務(wù)程序設(shè)計(jì)的語(yǔ)義數(shù)據(jù)表示和處理方法
- 一種基于語(yǔ)義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語(yǔ)義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語(yǔ)義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語(yǔ)義匹配方法和系統(tǒng)
- 遠(yuǎn)程語(yǔ)義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語(yǔ)義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語(yǔ)義表征和語(yǔ)義計(jì)算的信號(hào)語(yǔ)義識(shí)別方法
- 語(yǔ)義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 自動(dòng)配置藍(lán)牙A2DP傳輸音頻編碼格式的方法和系統(tǒng)
- 一種多路音頻處理方法、音頻播放終端及音頻接收裝置
- 一種音頻處理方法、裝置及終端設(shè)備
- 一種音頻質(zhì)量的檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 音頻分離方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種音頻播放方法、裝置、以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種音頻錄制系統(tǒng)
- 一種音頻共享系統(tǒng)及方法
- 音頻樣本生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 音頻處理方法和裝置
- 電流驅(qū)動(dòng)裝置的驅(qū)動(dòng)電路,電流驅(qū)動(dòng)設(shè)備及其驅(qū)動(dòng)方法
- 驅(qū)動(dòng)電路、驅(qū)動(dòng)模塊以及電機(jī)驅(qū)動(dòng)裝置
- 驅(qū)動(dòng)電路、驅(qū)動(dòng)模塊和電機(jī)驅(qū)動(dòng)設(shè)備
- 驅(qū)動(dòng)單元、驅(qū)動(dòng)方法、驅(qū)動(dòng)電路及顯示面板
- 驅(qū)動(dòng)電路、驅(qū)動(dòng)芯片及其驅(qū)動(dòng)方法
- 驅(qū)動(dòng)電機(jī)(電驅(qū)動(dòng))
- 驅(qū)動(dòng)電機(jī)(節(jié)能驅(qū)動(dòng))
- 驅(qū)動(dòng)電機(jī)(設(shè)備驅(qū)動(dòng))
- 驅(qū)動(dòng)機(jī)(驅(qū)動(dòng)軸)
- 驅(qū)動(dòng)機(jī)(電驅(qū)動(dòng))





