[發明專利]一種基于模型不確定性估計的機械臂強化學習控制方法在審
| 申請號: | 202310654932.7 | 申請日: | 2023-06-05 |
| 公開(公告)號: | CN116587278A | 公開(公告)日: | 2023-08-15 |
| 發明(設計)人: | 王英龍;王翻;舒明雷;陳超;狄沖;劉照陽 | 申請(專利權)人: | 山東省人工智能研究院;齊魯工業大學(山東省科學院) |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 濟南泉城專利商標事務所 37218 | 代理人: | 支文彬 |
| 地址: | 250013*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模型 不確定性 估計 機械 強化 學習 控制 方法 | ||
一種基于模型不確定性估計的機械臂強化學習控制方法,涉及機械臂控制技術領域,考慮到機械臂在建模時存在的不確定性因素,通過不確定性估計來構建機械臂的動力學模型。然后再利用基于機械臂不確定性估計模型的強化學習Dyna?Q算法,通過與模型的交互產生的數據更新狀態模型和獎勵函數模型,從模型中獲得大量虛擬數據,再利用真實數據與虛擬數據更新價值函數,從而能夠高效的產生和利用經驗,提高采樣效率,選擇最佳動作使得機械臂在執行任務中能夠獲得更優的策略。
技術領域
本發明涉及機械臂控制技術領域,具體涉及一種基于模型不確定性估計的機械臂強化學習控制方法。
背景技術
傳統的機械臂控制方法通常使用預先建立的動力學模型和控制器進行控制,但是這些方法忽略了模型不確定性帶來的影響。隨著對機械臂性能要求的日益提高,機械臂的模型存在很大的不確定性,如控制系統中通常存在未知的干擾和不確定性,包括建模誤差、外部干擾和測量誤差等,這些不確定性都可能會導致系統控制性能下降甚至失效。因此,需要考慮機械臂在建模中一切存在的不確定性因素,這樣才能保證機械臂執行任務時的穩定性和精確性。
強化學習中Model-free(不基于模型)的算法不依賴于對環境的建模,而是直接利用與環境交互得到的經驗來學習策略。在面對復雜的任務時Model-free方法可能需要大量的訓練樣本,學習過程的時間較長,數據采樣效率低。因此,利用Model-free算法對機械臂進行控制通常需要從大量的試錯中學習策略,對數據的需求比較大,可能需要大量的實驗來獲得足夠的數據。
發明內容
本發明為了克服以上技術的不足,提供了一種提高機械臂控制的穩定性和精度的基于模型不確定性估計的機械臂強化學習控制方法。
本發明克服其技術問題所采用的技術方案是:
一種基于模型不確定性估計的機械臂強化學習控制方法,包括:
a)建立不確定性估計的機械臂動力學模型其中為融合不確定性的機械臂的關節力矩,τ為機械臂的動力學模型的機械臂的關節力矩,δ為機械臂理論位置和實際位置的誤差;
b)初始化得到機械臂狀態模型P(s,a),其中s為不確定性估計的機械臂動力學模型中機械臂的當前位置狀態,a為將融合不確定性的機械臂的關節力矩輸入到機械臂的對應的關節的驅動器中,得到的機械臂要執行的動作;
c)通過獎勵函數r初始化得到獎勵函數模型R(s,a);
d)初始化機械臂的當前位置狀態s采取機械臂要執行的動作a的價值函數Q(s,a);
e)根據機械臂當前位置狀態s利用貪婪策略選擇機械臂要執行的動作a;
f)將步驟e)中機械臂要執行的動作a輸入到獎勵函數模型R(s,a)中,得到獎勵函數r,將步驟e)中機械臂要執行的動作a輸入到機械臂狀態模型P(s,a)中,得到機械臂下一個狀態s′,根據動作a和機械臂下一個狀態s′得到新的狀態模型
g)根據步驟f)中的機械臂要執行的動作a、機械臂的當前位置狀態s、獎勵函數r、機械臂下一個狀態s′計算得到更新的價值函數Q′(s,a);
h)根據步驟f)中的機械臂要執行的動作a、機械臂的當前位置狀態s、獎勵函數r計算得到新的獎勵函數模型i)隨機選擇一個機械臂的當前位置狀態s,在該當前位置狀態s出現過的動作中隨機選取一個動作a,將該動作a輸入到新的狀態模型中,得到機械臂下一個狀態s″,將該動作a輸入到新的獎勵函數模型中,得到獎勵函數r;
j)利用步驟i)中的機械臂的當前位置狀態s、根據動作a和機械臂下一個狀態s″計算得到更新的價值函數Q″(s,a);
k)重復執行步驟i)至步驟j)N次,得到最后更新的價值函數Q″(s,a);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東省人工智能研究院;齊魯工業大學(山東省科學院),未經山東省人工智能研究院;齊魯工業大學(山東省科學院)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310654932.7/2.html,轉載請聲明來源鉆瓜專利網。





