[發(fā)明專利]交互對象驅(qū)動和音素處理方法、裝置、設(shè)備以及存儲介質(zhì)有效

申請?zhí)枺?/td>	202110604874.8	申請日：	2021-05-31
公開（公告）號：	CN113314104B	公開（公告）日：	2023-06-20
發(fā)明（設(shè)計）人：	吳文巖;吳潛溢;高娜;錢晨	申請（專利權(quán)）人：	北京市商湯科技開發(fā)有限公司
主分類號：	G10L15/02	分類號：	G10L15/02;G10L15/06;G10L15/22;G10L13/02;G10L13/08;G10L13/10;G10L21/10;G10L25/24
代理公司：	北京博思佳知識產(chǎn)權(quán)代理有限公司 11415	代理人：	董曉盈
地址：	100080 北京市海淀區(qū)北***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	交互對象驅(qū)動音素處理方法裝置設(shè)備以及存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

公開了一種交互對象驅(qū)動和音素處理方法、裝置、設(shè)備以及存儲介質(zhì)，所述交互對象驅(qū)動方法包括：獲取交互對象的聲音驅(qū)動數(shù)據(jù)的聲學(xué)特征；利用聲音特征提取網(wǎng)絡(luò)對所述聲學(xué)特征進(jìn)行特征提取，得到所述聲音驅(qū)動數(shù)據(jù)中各個語音幀的音素后驗概率；所述聲音特征提取網(wǎng)絡(luò)是根據(jù)包含多語種的音素表訓(xùn)練得到的；根據(jù)所述各個語音幀的音素后驗概率，得到所述交互對象的姿態(tài)參數(shù)值；根據(jù)所述姿態(tài)參數(shù)值控制所述交互對象的姿態(tài)。

技術(shù)領(lǐng)域

本公開涉及計算機(jī)技術(shù)領(lǐng)域，具體涉及一種交互對象驅(qū)動和音素處理方法、裝置、設(shè)備以及存儲介質(zhì)。

背景技術(shù)

數(shù)字人是利用深度學(xué)習(xí)的方法，將所發(fā)出的聲音與所呈現(xiàn)的口型、表情、動作等相匹配。隨著數(shù)字人在眾多領(lǐng)域的廣泛應(yīng)用，在許多場景下需要數(shù)字人能夠支持多語種。

目前，通常利用語音識別模型所提取的聲音特征，或者利用音素時間戳得到的聲音特征來驅(qū)動數(shù)字人，然而這些特征在不同的語種下是有區(qū)別的，且深度學(xué)習(xí)需要針對不同語種的數(shù)據(jù)集，而當(dāng)前開源數(shù)據(jù)集存在質(zhì)量低、標(biāo)注不完整、數(shù)據(jù)不均衡等問題。

如何實(shí)現(xiàn)數(shù)字人對多語種的支持是目前需要積極研究的問題。

發(fā)明內(nèi)容

本公開實(shí)施例提供一種交互對象驅(qū)動和音素處理方案。

根據(jù)本公開的一方面，提供一種交互對象的驅(qū)動方法，所述方法包括：獲取交互對象的聲音驅(qū)動數(shù)據(jù)的聲學(xué)特征；利用聲音特征提取網(wǎng)絡(luò)對所述聲學(xué)特征進(jìn)行特征提取，得到所述聲音驅(qū)動數(shù)據(jù)中各個語音幀的音素后驗概率；所述聲音特征提取網(wǎng)絡(luò)是根據(jù)包含多語種的音素表訓(xùn)練得到的；根據(jù)所述各個語音幀的音素后驗概率，得到所述交互對象的姿態(tài)參數(shù)值；根據(jù)所述姿態(tài)參數(shù)值控制所述交互對象的姿態(tài)。

本公開實(shí)施例利用包含多語種的音素表對聲音特征提取網(wǎng)絡(luò)進(jìn)行訓(xùn)練，可以提高對所述特征提取網(wǎng)絡(luò)訓(xùn)練的效率和質(zhì)量，并利用該網(wǎng)絡(luò)提取所述聲音驅(qū)動數(shù)據(jù)的音素后驗特征，作為聲音特征驅(qū)動所述交互對象，由于所述音素后驗概率是與說話者無關(guān)、能夠支持多語種的聲音特征，使得交互對象的姿態(tài)在不同語種下都與真實(shí)發(fā)音相貼合。

結(jié)合本公開提供的任一實(shí)施方式，所述獲取交互對象的聲音驅(qū)動數(shù)據(jù)的聲學(xué)特征，包括：獲取所述交互對象的聲音驅(qū)動數(shù)據(jù)對應(yīng)的語音幀序列；根據(jù)所述語音幀序列中各個語音幀的聲學(xué)特征向量，得到所述聲音驅(qū)動數(shù)據(jù)的聲學(xué)特征。

結(jié)合本公開提供的任一實(shí)施方式，所述聲音特征提取網(wǎng)絡(luò)包括第一全連接網(wǎng)絡(luò)、編碼子網(wǎng)絡(luò)、第二全連接網(wǎng)絡(luò)，所述利用聲音特征提取網(wǎng)絡(luò)對所述聲學(xué)特征進(jìn)行特征提取，得到所述聲音驅(qū)動數(shù)據(jù)中各個語音幀的音素后驗概率，包括：將所述聲學(xué)特征輸入至所述第一全連接網(wǎng)絡(luò)，得到所述第一全連接網(wǎng)絡(luò)輸出的第一聲學(xué)特征序列；利用所述編碼子網(wǎng)絡(luò)，對所述第一聲學(xué)特征序列進(jìn)行特征編碼處理；將編碼結(jié)果輸入至所述第二全連接網(wǎng)絡(luò)，得到所述聲音驅(qū)動數(shù)據(jù)中各個語音幀的音素后驗概率。

在本公開實(shí)施例中，通過將所述聲音特征轉(zhuǎn)換為序列，通過適用于提取序列特征的編碼網(wǎng)絡(luò)進(jìn)行特征提取，并通過全連接網(wǎng)絡(luò)分類處理，可以準(zhǔn)確地預(yù)測出聲音特征數(shù)據(jù)中各個語音幀的音素后驗概率。

結(jié)合本公開提供的任一實(shí)施方式，所述根據(jù)所述各個音素的音素后驗概率，得到所述交互對象的姿態(tài)參數(shù)值，包括：將所述各個語音幀的音素后驗概率輸入至?xí)r序網(wǎng)絡(luò)，輸出關(guān)聯(lián)特征信息；將所述關(guān)聯(lián)特征信息輸入至第三全連接網(wǎng)絡(luò)，得到關(guān)聯(lián)特征序列；對所述關(guān)聯(lián)特征序列進(jìn)行激活處理，得到所述各個語音幀的音素后驗概率匹配的所述交互對象的姿態(tài)參數(shù)值。

通過時序網(wǎng)絡(luò)和全連接網(wǎng)絡(luò)來預(yù)測所述聲音驅(qū)動數(shù)據(jù)中各個語音幀的音素后驗概率對應(yīng)的姿態(tài)參數(shù)值，以將具有關(guān)聯(lián)性的歷史音素后驗概率和當(dāng)前音素后驗概率進(jìn)行融合，從而使得歷史姿態(tài)參數(shù)值對當(dāng)前姿態(tài)參數(shù)值的變化產(chǎn)生影響，使得交互人物的姿態(tài)參數(shù)值的變化更加平緩、自然。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京市商湯科技開發(fā)有限公司，未經(jīng)北京市商湯科技開發(fā)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110604874.8/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：人臉識別方法、裝置、電子設(shè)備及存儲介質(zhì)
下一篇：可移動防傾倒的電腦機(jī)箱

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】