[發(fā)明專利]行為控制策略的學習方法、裝置、設備及存儲介質有效
| 申請?zhí)枺?/td> | 201910820695.0 | 申請日: | 2019-08-29 |
| 公開(公告)號: | CN110516389B | 公開(公告)日: | 2021-04-13 |
| 發(fā)明(設計)人: | 孫明飛;石貝;付強 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F30/20 | 分類號: | G06F30/20;G06N3/08 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 駱蘇華 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 行為 控制 策略 學習方法 裝置 設備 存儲 介質 | ||
本申請公開了一種行為控制策略的學習方法、裝置、計算機設備及存儲介質,該方法包括:從演示行為數(shù)據(jù)序列中采樣出包括至少兩個演示行為數(shù)據(jù)的演示行為數(shù)據(jù)片段;依據(jù)演示行為數(shù)據(jù)片段,設置物理仿真器中模擬的目標對象的各個關節(jié)的初始狀態(tài)信息,并利用待訓練的神經(jīng)網(wǎng)絡模型確定出目標對象的各個關節(jié)的作用力數(shù)據(jù);控制物理仿真器中模擬的目標對象的各個關節(jié)的運動,以使得物理仿真器基于設定的動作行為限定特征,仿真出的目標對象的仿真行為數(shù)據(jù)序列;依據(jù)演示行為數(shù)據(jù)及仿真行為數(shù)據(jù),確定動作行為差異度;基于動作行為差異度,優(yōu)化神經(jīng)網(wǎng)絡模型直至達到優(yōu)化目標。本申請的方案有利于演示學習的對象基于演示動作生成擴展后的動作行為。
技術領域
本申請涉及計算機技術領域,尤其涉及一種行為控制策略的學習方法、裝置、設備及存儲介質。
背景技術
演示學習是一種將演示行為作為目標的自主學習技術,在演示學習中,待學習技能的對象被要求模仿演示的行為,以使得該對象可以獲得與演示行為相應的運動技能。其中,在不同應用領域中,待學習技能的對象也會有所不同。如,在游戲領域中,待學習技能的對象可以為游戲中的人物、動物等等;又如,在機器人控制領域中,待學習技能的對象可以為機器人。
目前,演示學習過程中,通過多樣的機器學習算法能夠從若干組演示范例中學習得到行為控制策略,然后便可以基于該行為控制策略,對實際應用環(huán)境中的對象進行行為控制,以使得對象可以獲得與演示范例相應的動作行為。
然而,在現(xiàn)有的演示學習過程中,如果希望待學習技能的對象具備某項運動技能,就需要預先獲得該運動技能對應的動作演示數(shù)據(jù);如果缺少了相應的動作演示數(shù)據(jù),則無法使得對象具備相應的運動技能,導致待學習技能的對象生成某項技能的復雜度較高。例如,如果希望游戲中的人物具備搬著箱子行走的運動技能,則需要預先通過真人搬著箱子行走的演示數(shù)據(jù)。
發(fā)明內容
有鑒于此,本申請?zhí)峁┝艘环N行為控制策略的學習方法、裝置、設備及存儲介質,以有利于演示學習的對象可以學習到不同于演示動作的動作行為,降低該對象學習行為技能的復雜度。
為實現(xiàn)上述目的,一方面,本申請?zhí)峁┝艘环N行為控制策略的學習方法,包括:
從演示行為數(shù)據(jù)序列中采樣出作為訓練樣本的演示行為數(shù)據(jù)片段,所述演示行為數(shù)據(jù)片段包括具有先后順序的至少兩個演示行為數(shù)據(jù),所述演示行為數(shù)據(jù)包括演示對象的各個關節(jié)的第一狀態(tài)信息;
依據(jù)所述演示行為數(shù)據(jù)片段,設置物理仿真器中模擬的目標對象的各個關節(jié)的初始狀態(tài)信息,并利用待訓練的神經(jīng)網(wǎng)絡模型確定出作用于所述目標對象的各個關節(jié)的作用力數(shù)據(jù),所述目標對象與所述演示對象具有相同的關節(jié);
基于所述神經(jīng)網(wǎng)絡模型確定的所述目標對象的各個關節(jié)的作用力數(shù)據(jù),控制所述物理仿真器中模擬的目標對象的各個關節(jié)的運動,以使得所述物理仿真器基于設定的動作行為限定特征,仿真出所述目標對象的仿真行為數(shù)據(jù)序列,所述仿真行為數(shù)據(jù)序列包括具有先后順序的至少一個仿真行為數(shù)據(jù),所述仿真行為數(shù)據(jù)包括所述目標對象的各個關節(jié)的第二狀態(tài)信息,所述動作行為限定特征用于限定所述模擬的目標對象的動作行為所需滿足的特征;
依據(jù)所述演示行為數(shù)據(jù)中演示對象的各個關節(jié)的第一狀態(tài)信息以及所述仿真行為數(shù)據(jù)中所述目標對象的各個關節(jié)的第二狀態(tài)信息,確定所述模擬的目標對象與所述演示對象之間的動作行為差異度;
基于所述動作行為差異度,優(yōu)化所述神經(jīng)網(wǎng)絡模型所表達的行為控制策略,直至達到優(yōu)化目標,將所述神經(jīng)網(wǎng)絡模型表達的行為控制策略確定為演示學習中所依據(jù)的控制策略。
又一方面,本申請還提供了一種行為控制策略的學習裝置,包括:
數(shù)據(jù)采樣單元,用于從演示行為數(shù)據(jù)序列中采樣出作為訓練樣本的演示行為數(shù)據(jù)片段,所述演示行為數(shù)據(jù)片段包括具有先后順序的至少兩個演示行為數(shù)據(jù),所述演示行為數(shù)據(jù)包括演示對象的各個關節(jié)的第一狀態(tài)信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910820695.0/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





