[發明專利]一種基于深度強化學習的機械臂智能控制快速訓練方法在審
| 申請號: | 202011277634.3 | 申請日: | 2020-11-16 |
| 公開(公告)號: | CN112338921A | 公開(公告)日: | 2021-02-09 |
| 發明(設計)人: | 馮正勇;趙寅甫 | 申請(專利權)人: | 西華師范大學 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 成都虹盛匯泉專利代理有限公司 51268 | 代理人: | 王偉 |
| 地址: | 637000 *** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 機械 智能 控制 快速 訓練 方法 | ||
1.一種基于深度強化學習的機械臂智能控制快速訓練方法,其特征在于,包括:
S1.在無物理屬性的2D機械臂仿真環境中采用深度強化學習算法DDPG訓練2D機械臂,找到最優的狀態向量表示、最優的獎勵函數形式;
S2.在有物理屬性的3D機械臂仿真環境中采用深度強化學習算法DDPG訓練3D機械臂,DDPG中的最優狀態向量表示、最優獎勵函數形式沿用2D機械臂仿真環境中得到的最優結果,從而得到控制策略模型;
S3.將有物理屬性的3D機械臂仿真環境中訓練得到的控制策略模型部署到真實機械臂上。
2.根據權利要求1所述的一種基于深度強化學習的機械臂智能控制快速訓練方法,其特征在于,所述2D機械臂包括軸a、軸b、末端c;桿ab、桿bc長度均為L,軸a為固定旋轉關節,軸b為活動旋轉關節,c為機械臂末端,桿ab和水平線的夾角為∠θ,桿bc和水平線的夾角為∠α。
3.根據權利要求2所述的一種基于深度強化學習的機械臂智能控制快速訓練方法,其特征在于,步驟S1得到的最優的狀態向量為:|b_x-x|,|b_y-y|,Indicator);其中,c_x表示機械臂末端c的x軸坐標,c_y表示機械臂末端c的y軸坐標,|c_x-x|表示機械臂末端c與目標點的x軸距離,|c_y-y|表示機械臂末端c與目標點的y軸距離,(x,y)表示任意給定的2D平面上的目標位置點。
4.根據權利要求3所述的一種基于深度強化學習的機械臂智能控制快速訓練方法,其特征在于,步驟S1得到的最優的獎勵函數為:
5.根據權利要求1-4任一權利要求所述的一種基于深度強化學習的機械臂智能控制快速訓練方法,其特征在于,DDPG包括四個神經網絡,分別是:Actor的目標網絡和評估網絡以及Critic的目標網絡和評估網絡,且Actor的目標網絡和評估網絡的結構相同,Critic的目標網絡和評估網絡的結構相同。
6.根據權利要求5所述的一種基于深度強化學習的機械臂智能控制快速訓練方法,其特征在于,使用均方差損失函數通過神經網絡的梯度反向傳播來更新Critic的評估網絡的參數;
其中,m表示批量梯度下降的樣本數,yi表示第i個樣本得到的Critic的目標網絡的目標Q值,ω表示Critic的評估網絡的參數,si表示第i個樣本中的狀態,ai表示第i個樣本中的動作。
7.根據權利要求5所述的一種基于深度強化學習的機械臂智能控制快速訓練方法,其特征在于,使用作為損失函數,通過神經網絡的梯度反向傳播來更新Actor的評估網絡的參數;
其中,m表示批量梯度下降的樣本數,ω表示Critic的評估網絡的參數,si表示第i個樣本中的狀態,ai表示第i個樣本中的動作。
8.根據權利要求5所述的一種基于深度強化學習的機械臂智能控制快速訓練方法,其特征在于,若T%C=1,則通過θ′←τθ+(1-τ)θ′更新Actor目標網絡的參數,通過ω′←τω+(1-τ)ω′更新Critic目標網絡的參數;
其中,C表示目標網絡參數更新步數;T表示最大迭代次數,θ表示Actor的評估網絡的參數,θ′表示Actor的目標網絡的參數,ω表示Critic的評估網絡的參數,ω′表示Critic的目標網絡的參數,←表示將右邊式子的計算結果賦值給左邊,τ表示軟更新權重系數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西華師范大學,未經西華師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011277634.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種防治害螨的藥物組合物、農藥及應用
- 下一篇:復合材料的制備方法和催化劑





