[發(fā)明專利]基于多模態(tài)數(shù)據(jù)的虛擬人物驅(qū)動方法、系統(tǒng)及設備在審
| 申請?zhí)枺?/td> | 202210567637.3 | 申請日: | 2022-05-23 |
| 公開(公告)號: | CN114840090A | 公開(公告)日: | 2022-08-02 |
| 發(fā)明(設計)人: | 朱鵬程;馬遠凱;冷海濤;張昆才;羅智凌;周偉;李禹;錢景 | 申請(專利權)人: | 阿里巴巴(中國)有限公司 |
| 主分類號: | G06F3/01 | 分類號: | G06F3/01;G06T13/40 |
| 代理公司: | 北京同鈞律師事務所 16037 | 代理人: | 柴海平;許懷遠 |
| 地址: | 311121 浙江省杭州市余杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多模態(tài) 數(shù)據(jù) 虛擬 人物 驅(qū)動 方法 系統(tǒng) 設備 | ||
1.一種基于多模態(tài)數(shù)據(jù)的虛擬人物驅(qū)動方法,其特征在于,包括:
獲取虛擬人物的三維形象渲染模型以利用虛擬人物提供對用戶的交互服務;
在虛擬人物與用戶的一輪對話過程中,實時獲取用戶輸入的語音數(shù)據(jù)和所述用戶的圖像數(shù)據(jù);
當檢測到所述用戶輸入的語音數(shù)據(jù)的靜默時長大于或等于預設時長時,若確定所述語音輸入未結束,則將上一時段內(nèi)所述用戶輸入的語音數(shù)據(jù)轉(zhuǎn)換為對應的文本信息,所述上一時段為自上一次靜默時長大于或等于預設時長的時刻至當前時刻;
根據(jù)所述上一時段內(nèi)所述用戶的圖像數(shù)據(jù)識別所述用戶的手勢信息,并根據(jù)所述用戶的手勢信息和所述文本信息,確定所述用戶的手勢信息對應的手勢意圖分類;
根據(jù)所述用戶的手勢信息對應的手勢意圖分類,以及當前的對話狀態(tài),確定對應的驅(qū)動數(shù)據(jù);
根據(jù)所述驅(qū)動數(shù)據(jù)和虛擬人物的三維形象渲染模型,驅(qū)動虛擬人物執(zhí)行對應的響應行為。
2.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)所述上一時段內(nèi)所述用戶的圖像數(shù)據(jù)識別所述用戶的手勢信息,并根據(jù)所述用戶的手勢信息和所述文本信息,確定所述用戶的手勢信息對應的手勢意圖分類,包括:
將所述文本信息與所述上一時段內(nèi)所述用戶的圖像數(shù)據(jù)輸入訓練好的多模態(tài)分類模型,通過所述多模態(tài)分類模型,根據(jù)所述上一時段內(nèi)所述用戶的圖像數(shù)據(jù)識別所述用戶的手勢信息,提取所述文本信息的語義特征,根據(jù)所述用戶的手勢信息和所述文本信息的語義特征,進行多模態(tài)分類處理,確定所述用戶的手勢信息對應的手勢意圖分類。
3.根據(jù)權利要求1或2所述的方法,其特征在于,還包括:
響應于響應策略配置操作,配置以下至少一類響應策略:
打斷策略、承接策略、開啟新一輪對話、無反饋;
其中,每一類響應策略包括一個或者多個響應策略,每一所述響應策略包括對應的手勢意圖分類、響應時間和響應方式。
4.根據(jù)權利要求3所述的方法,其特征在于,所述根據(jù)所述用戶的手勢信息對應的手勢意圖分類,以及當前的對話狀態(tài),確定對應的驅(qū)動數(shù)據(jù),包括:
若當前的對話狀態(tài)為用戶輸入虛擬人物接收的狀態(tài),則根據(jù)所述用戶的手勢信息對應的手勢意圖分類,確定所述手勢意圖分類對應的第一目標策略,所述第一目標策略為承接策略、開啟新一輪對話或無反饋中的一種;
根據(jù)所述手勢意圖分類對應的第一目標策略,確定對應的驅(qū)動數(shù)據(jù),所述驅(qū)動數(shù)據(jù)用于驅(qū)動虛擬人物執(zhí)行所述第一目標策略對應的響應行為。
5.根據(jù)權利要求4所述的方法,其特征在于,所述根據(jù)所述手勢意圖分類對應的第一目標策略,確定對應的驅(qū)動數(shù)據(jù),包括:
若所述第一目標策略為承接策略,則根據(jù)所述承接策略,確定第一驅(qū)動數(shù)據(jù),所述第一驅(qū)動數(shù)據(jù)用于驅(qū)動虛擬人物執(zhí)行做出承接動作、播報承接文案中的至少一種承接響應行為,其中,所述承接動作包括手部動作、面部動作中的至少一種。
6.根據(jù)權利要求3所述的方法,其特征在于,所述根據(jù)所述用戶的手勢信息對應的手勢意圖分類,以及當前的對話狀態(tài),確定對應的驅(qū)動數(shù)據(jù),包括:
若當前的對話狀態(tài)為虛擬人物輸出用戶接收的狀態(tài),則根據(jù)所述用戶的手勢信息對應的手勢意圖分類,確定所述手勢意圖分類對應的第二目標策略,所述第二目標策略為打斷策略、開啟新一輪對話或無反饋中的一種;
根據(jù)所述手勢意圖分類對應的第二目標策略,確定第二驅(qū)動數(shù)據(jù),所述第二驅(qū)動數(shù)據(jù)用于驅(qū)動虛擬人物執(zhí)行所述第二目標策略對應的響應行為。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴(中國)有限公司,未經(jīng)阿里巴巴(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210567637.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F3-00 用于將所要處理的數(shù)據(jù)轉(zhuǎn)變成為計算機能夠處理的形式的輸入裝置;用于將數(shù)據(jù)從處理機傳送到輸出設備的輸出裝置,例如,接口裝置
G06F3-01 .用于用戶和計算機之間交互的輸入裝置或輸入和輸出組合裝置
G06F3-05 .在規(guī)定的時間間隔上,利用模擬量取樣的數(shù)字輸入
G06F3-06 .來自記錄載體的數(shù)字輸入,或者到記錄載體上去的數(shù)字輸出
G06F3-09 .到打字機上去的數(shù)字輸出
G06F3-12 .到打印裝置上去的數(shù)字輸出
- 用于智能機器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學習的多模態(tài)醫(yī)學影像識別方法及裝置
- 一種基于多模態(tài)生成式對抗網(wǎng)絡的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學習的電力攻擊識別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應用該系統(tǒng)的方法
- 一種基于門機制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





