[發(fā)明專利]基于多模態(tài)數(shù)據(jù)的虛擬人物驅(qū)動方法、系統(tǒng)及設備在審

申請?zhí)枺?/td>	202210567637.3	申請日：	2022-05-23
公開（公告）號：	CN114840090A	公開（公告）日：	2022-08-02
發(fā)明（設計）人：	朱鵬程;馬遠凱;冷海濤;張昆才;羅智凌;周偉;李禹;錢景	申請（專利權）人：	阿里巴巴（中國）有限公司
主分類號：	G06F3/01	分類號：	G06F3/01;G06T13/40
代理公司：	北京同鈞律師事務所 16037	代理人：	柴海平;許懷遠
地址：	311121 浙江省杭州市余杭***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于多模態(tài) 數(shù)據(jù) 虛擬人物驅(qū)動方法系統(tǒng) 設備
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于多模態(tài)數(shù)據(jù)的虛擬人物驅(qū)動方法，其特征在于，包括：

獲取虛擬人物的三維形象渲染模型以利用虛擬人物提供對用戶的交互服務；

在虛擬人物與用戶的一輪對話過程中，實時獲取用戶輸入的語音數(shù)據(jù)和所述用戶的圖像數(shù)據(jù)；

當檢測到所述用戶輸入的語音數(shù)據(jù)的靜默時長大于或等于預設時長時，若確定所述語音輸入未結束，則將上一時段內(nèi)所述用戶輸入的語音數(shù)據(jù)轉(zhuǎn)換為對應的文本信息，所述上一時段為自上一次靜默時長大于或等于預設時長的時刻至當前時刻；

根據(jù)所述上一時段內(nèi)所述用戶的圖像數(shù)據(jù)識別所述用戶的手勢信息，并根據(jù)所述用戶的手勢信息和所述文本信息，確定所述用戶的手勢信息對應的手勢意圖分類；

根據(jù)所述用戶的手勢信息對應的手勢意圖分類，以及當前的對話狀態(tài)，確定對應的驅(qū)動數(shù)據(jù)；

根據(jù)所述驅(qū)動數(shù)據(jù)和虛擬人物的三維形象渲染模型，驅(qū)動虛擬人物執(zhí)行對應的響應行為。

2.根據(jù)權利要求1所述的方法，其特征在于，所述根據(jù)所述上一時段內(nèi)所述用戶的圖像數(shù)據(jù)識別所述用戶的手勢信息，并根據(jù)所述用戶的手勢信息和所述文本信息，確定所述用戶的手勢信息對應的手勢意圖分類，包括：

將所述文本信息與所述上一時段內(nèi)所述用戶的圖像數(shù)據(jù)輸入訓練好的多模態(tài)分類模型，通過所述多模態(tài)分類模型，根據(jù)所述上一時段內(nèi)所述用戶的圖像數(shù)據(jù)識別所述用戶的手勢信息，提取所述文本信息的語義特征，根據(jù)所述用戶的手勢信息和所述文本信息的語義特征，進行多模態(tài)分類處理，確定所述用戶的手勢信息對應的手勢意圖分類。

3.根據(jù)權利要求1或2所述的方法，其特征在于，還包括：

響應于響應策略配置操作，配置以下至少一類響應策略：

打斷策略、承接策略、開啟新一輪對話、無反饋；

其中，每一類響應策略包括一個或者多個響應策略，每一所述響應策略包括對應的手勢意圖分類、響應時間和響應方式。

4.根據(jù)權利要求3所述的方法，其特征在于，所述根據(jù)所述用戶的手勢信息對應的手勢意圖分類，以及當前的對話狀態(tài)，確定對應的驅(qū)動數(shù)據(jù)，包括：

若當前的對話狀態(tài)為用戶輸入虛擬人物接收的狀態(tài)，則根據(jù)所述用戶的手勢信息對應的手勢意圖分類，確定所述手勢意圖分類對應的第一目標策略，所述第一目標策略為承接策略、開啟新一輪對話或無反饋中的一種；

根據(jù)所述手勢意圖分類對應的第一目標策略，確定對應的驅(qū)動數(shù)據(jù)，所述驅(qū)動數(shù)據(jù)用于驅(qū)動虛擬人物執(zhí)行所述第一目標策略對應的響應行為。

5.根據(jù)權利要求4所述的方法，其特征在于，所述根據(jù)所述手勢意圖分類對應的第一目標策略，確定對應的驅(qū)動數(shù)據(jù)，包括：

若所述第一目標策略為承接策略，則根據(jù)所述承接策略，確定第一驅(qū)動數(shù)據(jù)，所述第一驅(qū)動數(shù)據(jù)用于驅(qū)動虛擬人物執(zhí)行做出承接動作、播報承接文案中的至少一種承接響應行為，其中，所述承接動作包括手部動作、面部動作中的至少一種。

6.根據(jù)權利要求3所述的方法，其特征在于，所述根據(jù)所述用戶的手勢信息對應的手勢意圖分類，以及當前的對話狀態(tài)，確定對應的驅(qū)動數(shù)據(jù)，包括：

若當前的對話狀態(tài)為虛擬人物輸出用戶接收的狀態(tài)，則根據(jù)所述用戶的手勢信息對應的手勢意圖分類，確定所述手勢意圖分類對應的第二目標策略，所述第二目標策略為打斷策略、開啟新一輪對話或無反饋中的一種；

根據(jù)所述手勢意圖分類對應的第二目標策略，確定第二驅(qū)動數(shù)據(jù)，所述第二驅(qū)動數(shù)據(jù)用于驅(qū)動虛擬人物執(zhí)行所述第二目標策略對應的響應行為。

下載完整專利技術內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴（中國）有限公司，未經(jīng)阿里巴巴（中國）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210567637.3/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種增強蜂花粉原料營養(yǎng)活性的新工藝
下一篇：一種具有有序介孔結構的多級孔β分子篩及制備方法和應用

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理
G06F3-00 用于將所要處理的數(shù)據(jù)轉(zhuǎn)變成為計算機能夠處理的形式的輸入裝置；用于將數(shù)據(jù)從處理機傳送到輸出設備的輸出裝置，例如，接口裝置
G06F3-01 .用于用戶和計算機之間交互的輸入裝置或輸入和輸出組合裝置
G06F3-05 .在規(guī)定的時間間隔上，利用模擬量取樣的數(shù)字輸入
G06F3-06 .來自記錄載體的數(shù)字輸入，或者到記錄載體上去的數(shù)字輸出
G06F3-09 .到打字機上去的數(shù)字輸出
G06F3-12 .到打印裝置上去的數(shù)字輸出

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】