[發明專利]一種基于強化學習的仿生機器鼠行為交互方法及仿真系統在審
| 申請號: | 202011122467.5 | 申請日: | 2020-10-20 |
| 公開(公告)號: | CN112163666A | 公開(公告)日: | 2021-01-01 |
| 發明(設計)人: | 石青;謝宏釗;賈廣祿;高子航;孫韜;周祺杰 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06N3/00 | 分類號: | G06N3/00 |
| 代理公司: | 北京高沃律師事務所 11569 | 代理人: | 張夢澤 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 仿生 機器 行為 交互 方法 仿真 系統 | ||
1.一種基于強化學習的仿生機器鼠行為交互方法,其特征在于,包括:
隨機初始化二維決策表,所述決策表包括狀態-動作組合;
根據交互對象的位置及動作,判定交互對象的當前狀態;
根據上一時刻狀態的價值以及當前狀態的價值計算反饋值;所述反饋值的計算公式如下:
r(s,s′)=V(s′)-V(s)-0.5
其中,r表示反饋值,s表示上一時刻狀態,s'表示當前狀態,V(s)表示上一時刻狀態的價值,V(s')表示當前狀態的價值;
基于所述反饋值,根據馬爾可夫決策過程對所述決策表中對應的狀態-動作組合的值進行更新;
根據∈-greedy算法從更新后的狀態-動作組合中選擇當前狀態對應的動作;
根據選擇的動作由仿真系統進行模擬實現。
2.根據權利要求1所述的基于強化學習的仿生機器鼠行為交互方法,其特征在于,所述狀態集合包括:背后、左側、右側、遠距、梳理、被梳理、攀爬、匍匐和其他9種狀態;所述動作集合包括:直線前進、直線后退、原地左轉、原地右轉、直立、嗅探、梳理、被梳理、攀爬和匍匐共10種動作。
3.根據權利要求1所述的基于強化學習的仿生機器鼠行為交互方法,其特征在于,所述根據馬爾可夫決策過程對所述決策表中對應的狀態-動作組合的值進行更新的公式如下:
Q′(s,a)=Q(s,a)+α[r+γargmaxQ(s′,a)-Q(s,a)]
其中,Q′(s,a)表示更新后的決策表,Q(s,a)表示更新前的決策表,a表示動作,α和γ均為0~1之間的常數。
4.根據權利要求1所述的基于強化學習的仿生機器鼠行為交互方法,其特征在于,所述根據∈-greedy算法從更新后的狀態-動作組合中選擇當前狀態對應的動作,具體包括:
a、指定0~1之間的常數∈;
b、利用計算機隨機數引擎生成0~1之間的隨機數ra;
c、如果ra≥∈,執行步驟d;如果ra<∈,執行步驟e;
d、在更新后的決策表中尋找當前狀態對應的動作值最大的動作;
e、在動作集合中以相同的概率隨機選取動作。
5.一種應用于權利要求1-4任意一項所述的基于強化學習的仿生機器鼠行為交互方法的仿真系統,其特征在于,包括:
行為決策層,用于基于強化學習的仿生機器鼠行為交互方法生成行為決策;
動作執行層,與所述行為決策層連接,用于根據所述行為決策實現仿生機器鼠模型動作模擬;
關節控制層,與所述動作執行層連接,用于實現對仿生機器鼠模型各關節的位置及速度控制。
6.根據權利要求5所述的仿真系統,其特征在于,所述機器鼠模型由兩個驅動輪驅動,軀干部分為7自由度串聯機械臂。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011122467.5/1.html,轉載請聲明來源鉆瓜專利網。





