[發(fā)明專利]交互對象驅(qū)動和音素處理方法、裝置、設(shè)備以及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202110604874.8 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113314104B | 公開(公告)日: | 2023-06-20 |
| 發(fā)明(設(shè)計)人: | 吳文巖;吳潛溢;高娜;錢晨 | 申請(專利權(quán))人: | 北京市商湯科技開發(fā)有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/22;G10L13/02;G10L13/08;G10L13/10;G10L21/10;G10L25/24 |
| 代理公司: | 北京博思佳知識產(chǎn)權(quán)代理有限公司 11415 | 代理人: | 董曉盈 |
| 地址: | 100080 北京市海淀區(qū)北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 交互 對象 驅(qū)動 音素 處理 方法 裝置 設(shè)備 以及 存儲 介質(zhì) | ||
公開了一種交互對象驅(qū)動和音素處理方法、裝置、設(shè)備以及存儲介質(zhì),所述交互對象驅(qū)動方法包括:獲取交互對象的聲音驅(qū)動數(shù)據(jù)的聲學(xué)特征;利用聲音特征提取網(wǎng)絡(luò)對所述聲學(xué)特征進(jìn)行特征提取,得到所述聲音驅(qū)動數(shù)據(jù)中各個語音幀的音素后驗概率;所述聲音特征提取網(wǎng)絡(luò)是根據(jù)包含多語種的音素表訓(xùn)練得到的;根據(jù)所述各個語音幀的音素后驗概率,得到所述交互對象的姿態(tài)參數(shù)值;根據(jù)所述姿態(tài)參數(shù)值控制所述交互對象的姿態(tài)。
技術(shù)領(lǐng)域
本公開涉及計算機(jī)技術(shù)領(lǐng)域,具體涉及一種交互對象驅(qū)動和音素處理方法、裝置、設(shè)備以及存儲介質(zhì)。
背景技術(shù)
數(shù)字人是利用深度學(xué)習(xí)的方法,將所發(fā)出的聲音與所呈現(xiàn)的口型、表情、動作等相匹配。隨著數(shù)字人在眾多領(lǐng)域的廣泛應(yīng)用,在許多場景下需要數(shù)字人能夠支持多語種。
目前,通常利用語音識別模型所提取的聲音特征,或者利用音素時間戳得到的聲音特征來驅(qū)動數(shù)字人,然而這些特征在不同的語種下是有區(qū)別的,且深度學(xué)習(xí)需要針對不同語種的數(shù)據(jù)集,而當(dāng)前開源數(shù)據(jù)集存在質(zhì)量低、標(biāo)注不完整、數(shù)據(jù)不均衡等問題。
如何實(shí)現(xiàn)數(shù)字人對多語種的支持是目前需要積極研究的問題。
發(fā)明內(nèi)容
本公開實(shí)施例提供一種交互對象驅(qū)動和音素處理方案。
根據(jù)本公開的一方面,提供一種交互對象的驅(qū)動方法,所述方法包括:獲取交互對象的聲音驅(qū)動數(shù)據(jù)的聲學(xué)特征;利用聲音特征提取網(wǎng)絡(luò)對所述聲學(xué)特征進(jìn)行特征提取,得到所述聲音驅(qū)動數(shù)據(jù)中各個語音幀的音素后驗概率;所述聲音特征提取網(wǎng)絡(luò)是根據(jù)包含多語種的音素表訓(xùn)練得到的;根據(jù)所述各個語音幀的音素后驗概率,得到所述交互對象的姿態(tài)參數(shù)值;根據(jù)所述姿態(tài)參數(shù)值控制所述交互對象的姿態(tài)。
本公開實(shí)施例利用包含多語種的音素表對聲音特征提取網(wǎng)絡(luò)進(jìn)行訓(xùn)練,可以提高對所述特征提取網(wǎng)絡(luò)訓(xùn)練的效率和質(zhì)量,并利用該網(wǎng)絡(luò)提取所述聲音驅(qū)動數(shù)據(jù)的音素后驗特征,作為聲音特征驅(qū)動所述交互對象,由于所述音素后驗概率是與說話者無關(guān)、能夠支持多語種的聲音特征,使得交互對象的姿態(tài)在不同語種下都與真實(shí)發(fā)音相貼合。
結(jié)合本公開提供的任一實(shí)施方式,所述獲取交互對象的聲音驅(qū)動數(shù)據(jù)的聲學(xué)特征,包括:獲取所述交互對象的聲音驅(qū)動數(shù)據(jù)對應(yīng)的語音幀序列;根據(jù)所述語音幀序列中各個語音幀的聲學(xué)特征向量,得到所述聲音驅(qū)動數(shù)據(jù)的聲學(xué)特征。
結(jié)合本公開提供的任一實(shí)施方式,所述聲音特征提取網(wǎng)絡(luò)包括第一全連接網(wǎng)絡(luò)、編碼子網(wǎng)絡(luò)、第二全連接網(wǎng)絡(luò),所述利用聲音特征提取網(wǎng)絡(luò)對所述聲學(xué)特征進(jìn)行特征提取,得到所述聲音驅(qū)動數(shù)據(jù)中各個語音幀的音素后驗概率,包括:將所述聲學(xué)特征輸入至所述第一全連接網(wǎng)絡(luò),得到所述第一全連接網(wǎng)絡(luò)輸出的第一聲學(xué)特征序列;利用所述編碼子網(wǎng)絡(luò),對所述第一聲學(xué)特征序列進(jìn)行特征編碼處理;將編碼結(jié)果輸入至所述第二全連接網(wǎng)絡(luò),得到所述聲音驅(qū)動數(shù)據(jù)中各個語音幀的音素后驗概率。
在本公開實(shí)施例中,通過將所述聲音特征轉(zhuǎn)換為序列,通過適用于提取序列特征的編碼網(wǎng)絡(luò)進(jìn)行特征提取,并通過全連接網(wǎng)絡(luò)分類處理,可以準(zhǔn)確地預(yù)測出聲音特征數(shù)據(jù)中各個語音幀的音素后驗概率。
結(jié)合本公開提供的任一實(shí)施方式,所述根據(jù)所述各個音素的音素后驗概率,得到所述交互對象的姿態(tài)參數(shù)值,包括:將所述各個語音幀的音素后驗概率輸入至?xí)r序網(wǎng)絡(luò),輸出關(guān)聯(lián)特征信息;將所述關(guān)聯(lián)特征信息輸入至第三全連接網(wǎng)絡(luò),得到關(guān)聯(lián)特征序列;對所述關(guān)聯(lián)特征序列進(jìn)行激活處理,得到所述各個語音幀的音素后驗概率匹配的所述交互對象的姿態(tài)參數(shù)值。
通過時序網(wǎng)絡(luò)和全連接網(wǎng)絡(luò)來預(yù)測所述聲音驅(qū)動數(shù)據(jù)中各個語音幀的音素后驗概率對應(yīng)的姿態(tài)參數(shù)值,以將具有關(guān)聯(lián)性的歷史音素后驗概率和當(dāng)前音素后驗概率進(jìn)行融合,從而使得歷史姿態(tài)參數(shù)值對當(dāng)前姿態(tài)參數(shù)值的變化產(chǎn)生影響,使得交互人物的姿態(tài)參數(shù)值的變化更加平緩、自然。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京市商湯科技開發(fā)有限公司,未經(jīng)北京市商湯科技開發(fā)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110604874.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





