[發(fā)明專利]行為控制策略的學習方法、裝置、設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201910820695.0 | 申請日: | 2019-08-29 |
| 公開(公告)號: | CN110516389B | 公開(公告)日: | 2021-04-13 |
| 發(fā)明(設(shè)計)人: | 孫明飛;石貝;付強 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F30/20 | 分類號: | G06F30/20;G06N3/08 |
| 代理公司: | 深圳市深佳知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44285 | 代理人: | 駱蘇華 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 行為 控制 策略 學習方法 裝置 設(shè)備 存儲 介質(zhì) | ||
1.一種行為控制策略的學習方法,其特征在于,包括:
從演示行為數(shù)據(jù)序列中采樣出作為訓練樣本的演示行為數(shù)據(jù)片段,所述演示行為數(shù)據(jù)片段包括具有先后順序的至少兩個演示行為數(shù)據(jù),所述演示行為數(shù)據(jù)包括演示對象的各個關(guān)節(jié)的第一狀態(tài)信息;
依據(jù)所述演示行為數(shù)據(jù)片段,設(shè)置物理仿真器中模擬的目標對象的各個關(guān)節(jié)的初始狀態(tài)信息,并利用待訓練的神經(jīng)網(wǎng)絡(luò)模型確定出作用于所述目標對象的各個關(guān)節(jié)的作用力數(shù)據(jù),所述目標對象與所述演示對象具有相同的關(guān)節(jié);
基于所述神經(jīng)網(wǎng)絡(luò)模型確定的所述目標對象的各個關(guān)節(jié)的作用力數(shù)據(jù),控制所述物理仿真器中模擬的目標對象的各個關(guān)節(jié)的運動,以使得所述物理仿真器基于設(shè)定的動作行為限定特征,仿真出所述目標對象的仿真行為數(shù)據(jù)序列,所述仿真行為數(shù)據(jù)序列包括具有先后順序的至少一個仿真行為數(shù)據(jù),所述仿真行為數(shù)據(jù)包括所述目標對象的各個關(guān)節(jié)的第二狀態(tài)信息,所述動作行為限定特征用于限定所述模擬的目標對象進行動作行為的過程中所需額外滿足的特征;
依據(jù)所述演示行為數(shù)據(jù)中演示對象的各個關(guān)節(jié)的第一狀態(tài)信息以及所述仿真行為數(shù)據(jù)中所述目標對象的各個關(guān)節(jié)的第二狀態(tài)信息,確定所述模擬的目標對象與所述演示對象之間的動作行為差異度;
基于所述動作行為差異度,優(yōu)化所述神經(jīng)網(wǎng)絡(luò)模型所表達的行為控制策略,直至達到優(yōu)化目標,將所述神經(jīng)網(wǎng)絡(luò)模型表達的行為控制策略確定為演示學習中所依據(jù)的控制策略。
2.根據(jù)權(quán)利要求1所述的行為控制策略的學習方法,其特征在于,所述基于所述動作行為差異度,優(yōu)化所述神經(jīng)網(wǎng)絡(luò)模型所表達的行為控制策略,直至達到優(yōu)化目標,包括:
檢測所述動作行為差異度是否達到設(shè)定的優(yōu)化目標;
如果所述動作行為差異度未達到設(shè)定的優(yōu)化目標,則基于所述動作行為差異度,優(yōu)化所述神經(jīng)網(wǎng)絡(luò)模型表達的行為控制策略,并返回執(zhí)行所述從演示行為數(shù)據(jù)序列中采樣出作為訓練樣本的演示行為數(shù)據(jù)片段的操作;
如果所述動作行為差異度達到設(shè)定的優(yōu)化目標,則確認學習完成。
3.根據(jù)權(quán)利要求1或2所述的行為控制策略的學習方法,其特征在于,所述基于所述動作行為差異度,優(yōu)化所述神經(jīng)網(wǎng)絡(luò)模型表達的行為控制策略,包括:
依據(jù)所述動作行為差異度,并基于強化學習算法,確定激勵信號;
按照所述激勵信號,調(diào)整所述神經(jīng)網(wǎng)絡(luò)模型中的內(nèi)部參數(shù),以改變所述神經(jīng)網(wǎng)絡(luò)模型所表達的行為控制策略。
4.根據(jù)權(quán)利要求1所述的行為控制策略的學習方法,其特征在于,所述依據(jù)所述演示行為數(shù)據(jù)片段,設(shè)置物理仿真器中模擬的目標對象的各個關(guān)節(jié)的初始狀態(tài)信息,并利用待訓練的神經(jīng)網(wǎng)絡(luò)模型確定出作用于所述目標對象的各個關(guān)節(jié)的作用力數(shù)據(jù),包括:
依據(jù)所述演示行為數(shù)據(jù)片段中首個演示行為數(shù)據(jù)中演示對象的各個關(guān)節(jié)的第一狀態(tài)信息,設(shè)置物理仿真器中模擬的目標對象的各個關(guān)節(jié)的初始狀態(tài)信息;
將所述首個演示行為數(shù)據(jù)中所述演示對象的各個關(guān)節(jié)的第一狀態(tài)信息輸入到待訓練的神經(jīng)網(wǎng)絡(luò)模型,得到所述神經(jīng)網(wǎng)絡(luò)模型輸出的用于控制所述目標對象的各個關(guān)節(jié)的作用力數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910820695.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種計算機網(wǎng)絡(luò)策略管理系統(tǒng)及策略管理方法
- 應(yīng)用于合法監(jiān)聽系統(tǒng)的網(wǎng)絡(luò)策略架構(gòu)及其策略處理方法
- 分發(fā)策略的方法、系統(tǒng)和策略分發(fā)實體
- 策略控制方法、策略規(guī)則決策設(shè)備和策略控制設(shè)備
- 用于控制QoS策略沖突的方法、設(shè)備和系統(tǒng)
- 策略融合的方法、UE及服務(wù)器
- 策略調(diào)整觸發(fā)、策略調(diào)整方法及裝置、策略調(diào)整系統(tǒng)
- 設(shè)備策略管理器
- 策略組中的策略評估、策略選擇方法及裝置
- 策略集群分發(fā)匹配方法、系統(tǒng)及計算機可讀存儲介質(zhì)





