[發明專利]一種基于深度強化學習的機械臂智能控制快速訓練方法在審

申請號：	202011277634.3	申請日：	2020-11-16
公開（公告）號：	CN112338921A	公開（公告）日：	2021-02-09
發明（設計）人：	馮正勇;趙寅甫	申請（專利權）人：	西華師范大學
主分類號：	B25J9/16	分類號：	B25J9/16
代理公司：	成都虹盛匯泉專利代理有限公司 51268	代理人：	王偉
地址：	637000 ***	國省代碼：	四川;51
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于深度強化學習機械智能控制快速訓練方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開一種基于深度強化學習的機械臂智能控制快速訓練方法，應用于機器人智能控制領域，針對現有的訓練方法訓練時間長，控制效果差的問題，本發明首先在無物理屬性的2D機械臂仿真環境中采用深度強化學習算法進行訓練，其訓練復雜度極大的降低，使得訓練時間極大的縮短，加速了機械臂的控制策略模型的訓練；然后將在2D機械臂仿真環境下訓練找到最優的狀態向量表示和最優的獎勵函數形式，作為3D機械臂深度強化學習算法訓練的最優狀態向量表示，最優獎勵函數形式；從而得到3D機械臂的控制模型，采用本發明的方法不僅可以極大縮短訓練時間，并且可以使得訓練得到的控制策略模型的效果到達應用要求。

技術領域

本發明屬于機器人智能控制領域，特別涉及一種機械臂智能控制技術。

背景技術

人工智能算法在機器人控制當中得到了廣泛的應用，機器人控制算法也逐漸從方程解算向數據驅動轉移，越來越多的機器人控制采用了人工智能算法。本設計采用了深度強化學習算法DDPG(Deep Deterministic Policy Gradient)，代替機械臂傳統控制算法中的正(逆)運動學解算方法，直接通過數據驅動的訓練得到神經網絡模型控制機械臂末端到達目標位置。該方法可以將訓練得到的模型快速部署到機械臂控制平臺上，使得機械臂移動到任意給定目標位置點得以快速實現，我們在仿真環境中用深度強化學習算法DDPG訓練了機械臂，并采用了先2D建模后3D建模的訓練方式，大幅縮短了訓練時長，最終，訓練得到的算法模型在真實機械臂上進行實現和驗證，其控制效果達到了應用要求。

在深度強化學習算法中，有以下5大要素：智能體(Agent)、環境(Environment)、動作(Action)、狀態(State)、獎勵(Reward)。如圖1所示，智能體實時的和環境之間進行交互，智能體觀測到狀態后根據策略模型輸出動作，而動作會作用于環境進而影響狀態，另外環境還會根據動作和狀態的好壞給智能體一個獎勵，而智能體則根據動作狀態和獎勵更新自身選擇動作的策略模型。通過在環境中的不斷嘗試，獲得最大的獎勵，學習到從狀態到動作的映射，這種映射就是策略模型，或簡稱模型，它以參數化的深度神經網絡表示。

目前的深度強化學習算法DDPG已經開始廣泛應用在機械臂的智能控制當中，但是在實現上仍然存在以下困難：

1.數據驅動的深度強化學習算法，通過仿真機械臂和虛擬環境進行交互來獲取數據進行學習，從而得到有效的控制模型，該訓練過程耗費時間長，如何縮短訓練時長，提升模型開發效率是一個重要問題。

2.針對機械臂的訓練過程，如何設置機械臂及環境的狀態參數，如何設置訓練過程的獎勵函數，使得訓練得到的機械臂控制效果達到最佳是另一個重要的問題。

發明內容

為解決上述技術問題，本發明提出一種基于深度強化學習的機械臂智能控制快速訓練方法，該方法訓練時間短，得到的模型控制效果好。

本發明采用的技術方案為：一種基于深度強化學習的機械臂智能控制快速訓練方法，包括：

S1.在無物理屬性的2D機械臂仿真環境中采用深度強化學習算法DDPG訓練2D機械臂，找到最優的狀態向量表示、最優的獎勵函數形式；

S2.在有物理屬性的3D機械臂仿真環境中采用深度強化學習算法DDPG訓練3D機械臂，DDPG中的最優狀態向量表示、最優獎勵函數形式沿用2D機械臂仿真環境中得到的最優結果，從而得到控制策略模型；

S3.將有物理屬性的3D機械臂仿真環境中訓練得到的控制策略模型部署到真實機械臂上。

所述2D機械臂包括軸a、軸b、末端c；桿ab、桿bc長度均為L，軸a為固定旋轉關節，軸b為活動旋轉關節，c為機械臂末端，桿ab和水平線的夾角為∠θ，桿bc和水平線的夾角為∠α。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載