[發(fā)明專利]一種基于模型不確定性估計的機械臂強化學習控制方法在審
| 申請?zhí)枺?/td> | 202310654932.7 | 申請日: | 2023-06-05 |
| 公開(公告)號: | CN116587278A | 公開(公告)日: | 2023-08-15 |
| 發(fā)明(設計)人: | 王英龍;王翻;舒明雷;陳超;狄沖;劉照陽 | 申請(專利權)人: | 山東省人工智能研究院;齊魯工業(yè)大學(山東省科學院) |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 濟南泉城專利商標事務所 37218 | 代理人: | 支文彬 |
| 地址: | 250013*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模型 不確定性 估計 機械 強化 學習 控制 方法 | ||
1.一種基于模型不確定性估計的機械臂強化學習控制方法,其特征在于,包括:
a)建立不確定性估計的機械臂動力學模型其中為融合不確定性的機械臂的關節(jié)力矩,τ為機械臂的動力學模型的機械臂的關節(jié)力矩,δ為機械臂理論位置和實際位置的誤差;
b)初始化得到機械臂狀態(tài)模型P(s,a),其中s為不確定性估計的機械臂動力學模型中機械臂的當前位置狀態(tài),a為將融合不確定性的機械臂的關節(jié)力矩輸入到機械臂的對應的關節(jié)的驅動器中,得到的機械臂要執(zhí)行的動作;
c)通過獎勵函數(shù)r初始化得到獎勵函數(shù)模型R(s,a);
d)初始化機械臂的當前位置狀態(tài)s采取機械臂要執(zhí)行的動作a的價值函數(shù)Q(s,a);
e)根據(jù)機械臂當前位置狀態(tài)s利用貪婪策略選擇機械臂要執(zhí)行的動作a;
f)將步驟e)中機械臂要執(zhí)行的動作a輸入到獎勵函數(shù)模型R(s,a)中,得到獎勵函數(shù)r,將步驟e)中機械臂要執(zhí)行的動作a輸入到機械臂狀態(tài)模型P(s,a)中,得到機械臂下一個狀態(tài)s′,根據(jù)動作a和機械臂下一個狀態(tài)s′得到新的狀態(tài)模型
g)根據(jù)步驟f)中的機械臂要執(zhí)行的動作a、機械臂的當前位置狀態(tài)s、獎勵函數(shù)r、機械臂下一個狀態(tài)s′計算得到更新的價值函數(shù)Q′(s,a);
h)根據(jù)步驟f)中的機械臂要執(zhí)行的動作a、機械臂的當前位置狀態(tài)s、獎勵函數(shù)r計算得到新的獎勵函數(shù)模型
i)隨機選擇一個機械臂的當前位置狀態(tài)s,在該當前位置狀態(tài)s出現(xiàn)過的動作中隨機選取一個動作a,將該動作a輸入到新的狀態(tài)模型中,得到機械臂下一個狀態(tài)s″,將該動作a輸入到新的獎勵函數(shù)模型中,得到獎勵函數(shù)r;
j)利用步驟i)中的機械臂的當前位置狀態(tài)s、根據(jù)動作a和機械臂下一個狀態(tài)s″計算得到更新的價值函數(shù)Q″(s,a);
k)重復執(zhí)行步驟i)至步驟j)N次,得到最后更新的價值函數(shù)Q″(s,a);
l)根據(jù)最后更新的價值函數(shù)Q″(s,a)計算得到當前狀態(tài)下價值函數(shù)最大的動作a*;
m)將動作a*作為輸入到機械臂的關節(jié)驅動器中,實現(xiàn)機械臂的控制。
2.根據(jù)權利要求1所述的基于模型不確定性估計的機械臂強化學習控制方法,其特征在于,步驟a)包括如下步驟:
a-1)機械臂動力學模型為其中q為機械臂的關節(jié)位置向量,為機械臂的角速度向量,為機械臂的角加速度向量,M(q)為質量慣性矩陣,為向心力與哥氏力矩陣,G(q)為重力矩陣;
a-2)通過公式計算得到機械臂理論位置和實際位置的誤差δ,式中ΔM(q)為質量慣性矩陣參數(shù)的實際值與標稱值之間的偏差,為向心力與哥氏力矩陣參數(shù)的實際值與標稱值之間的偏差,ΔG(q)為重力矩陣參數(shù)的實際值與標稱值之間的偏差,δ~CNP(mζ,kζ),δ服從于CNP,CNP為深度高斯過程學習系統(tǒng)建模,mζ為高斯函數(shù)的均值向量,kζ為高斯函數(shù)的協(xié)方差函數(shù)。
3.根據(jù)權利要求1所述的基于模型不確定性估計的機械臂強化學習控制方法,其特征在于:步驟b)中不確定性估計的機械臂動力學模型中機械臂的當前位置狀態(tài)s包括機械臂的關節(jié)角度、機械臂的角速度、機械臂末端執(zhí)行器的位置、機械臂末端執(zhí)行器的速度、機械臂的力。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東省人工智能研究院;齊魯工業(yè)大學(山東省科學院),未經(jīng)山東省人工智能研究院;齊魯工業(yè)大學(山東省科學院)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310654932.7/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





