[發明專利]一種機器人控制方法及設備有效
| 申請號: | 202010552467.2 | 申請日: | 2020-06-17 |
| 公開(公告)號: | CN111645076B | 公開(公告)日: | 2021-05-11 |
| 發明(設計)人: | 王東署;胡宇航;羅勇;辛健斌;王河山;馬天磊;賈建華;張方方;陳書立 | 申請(專利權)人: | 鄭州大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 焦作市科彤知識產權代理事務所(普通合伙) 41133 | 代理人: | 楊東 |
| 地址: | 450001 河南省鄭*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 機器人 控制 方法 設備 | ||
1.一種機器人控制方法,其特征在于,所述方法包括:
獲取所述機器人的當前狀態和至少兩個待執行動作及其對應的權重,其中,所述當前狀態包括當前環境和獎勵信息,并基于所述當前狀態和至少兩個待執行動作及其對應的權重,確定獎勵預測誤差信號,所述獎勵預測誤差信號由如下公式計算得到:
其中,Rt為表示機器人在與環境實時交互的t時刻獲得的獎勵信息;γ為折扣因子;Q(s,a)為強化學習中的當前狀態s下選擇執行待執行動作a的期望值;st表示t時刻對應的所述機器人的狀態;i為待執行動作的編號,取值范圍為i=1,2,……,n;ai為編號為i的待執行動作;A為所有待執行動作ai的集合;
基于所述獎勵預測誤差信號,通過前扣帶回皮層神經調節機制對探索速度進行調節,得到與所述當前狀態對應的所述探索速度,包括:基于所述獎勵預測誤差信號,通過所述前扣帶回皮層神經調節機制確定正確神經元響應值和錯誤神經元響應值;獲取正確神經元響應更新率以及錯誤神經元響應更新率,利用所述當前狀態對應的所述正確神經元響應值和所述錯誤神經元響應值以及所述正確神經元響應更新率和所述錯誤神經元響應值更新率計算得到所述當前狀態對應的警覺值;通過所述警覺值對所述探索速度進行調節,得到與所述當前狀態對應的所述探索速度;
基于所述探索速度、所有所述待執行動作及其對應的權重從所有所述待執行動作中確定最優待執行動作并執行,包括:
基于所述探索速度、所有所述待執行動作及其對應的權重進行方程轉化得到與所述當前狀態對應的每個所述待執行動作的執行概率;
基于每個所述待執行動作的執行概率確定所述最優待執行動作并執行,包括:基于每個所述待執行動作的執行概率,得到所有所述待執行動作的執行概率的相似度;若所有所述待執行動作的執行概率的相似度大于相似度閾值,則從所有所述待執行動作中隨機選出一個所述待執行動作作為所述最優待執行動作并執行;若所有所述待執行動作的執行概率的相似度小于等于所述相似度閾值,則將所有所述待執行動作中執行概率最大的所述待執行動作作為所述最優待執行動作并執行。
2.根據權利要求1所述的方法,其中,所述方法還包括:
獲取執行所述最優待執行動作后的更新狀態;
基于所述更新狀態對所述待執行動作對應的權重進行更新。
3.根據權利要求2所述的方法,其特征在于,基于所述更新狀態對所述待執行動作及其對應的權重進行更新,包括:
基于所述更新狀態判斷執行所述最優待執行動作后是否發生碰撞;
若未發生碰撞,則基于所述當前狀態、所述最優待執行動作以及所述更新狀態對所述待執行動作及其對應的權重進行更新,得到更新后的待執行動作對應的權重。
4.一種計算機可讀介質,其上存儲有計算機可讀指令,所述計算機可讀指令可被處理器執行時,使所述處理器實現如權利要求1至3中任一項所述的方法。
5.一種機器人控制設備,其特征在于,該設備包括:
一個或多個處理器;
計算機可讀介質,用于存儲一個或多個計算機可讀指令,
當所述一個或多個計算機可讀指令被所述一個或多個處理器執行,使得所述一個或多個處理器實現如權利要求1至3中任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄭州大學,未經鄭州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010552467.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種顯示裝置及其驅動方法
- 下一篇:一種智慧物流的快遞包裹方向調整系統





