[發明專利]基于深度增強學習的工業機械臂自動控制方法有效
| 申請號: | 201711275146.7 | 申請日: | 2017-12-06 |
| 公開(公告)號: | CN108052004B | 公開(公告)日: | 2020-11-10 |
| 發明(設計)人: | 柯豐愷;周唯倜;趙大興;孫國棟;許萬;丁國龍;吳震宇;趙迪 | 申請(專利權)人: | 湖北工業大學 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04;G06F30/27;G06N3/04;G06N3/08;B25J9/16 |
| 代理公司: | 武漢開元知識產權代理有限公司 42104 | 代理人: | 王和平;張繼巍 |
| 地址: | 430068 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 增強 學習 工業 機械 自動控制 方法 | ||
1.一種基于深度增強學習的工業機械臂自動控制方法,其特征在于:所述控制方法包括如下步驟:
步驟1)構建深度增強學習模型
1.1)經驗池初始化:設定經驗池為m行、n列的二維矩陣,二維矩陣中每個元素的值初始化為0,其中,m為樣本容量大小、n為每個樣本儲存的信息數量,n=2×state_dim+action_dim+1,state_dim為狀態的維度、action_dim為動作的維度;同時,在經驗池中預留出用于存儲獎勵信息1的空間,n=2×state_dim+action_dim+1這個公式中的1即為存儲獎勵信息的預留空間;
1.2)神經網絡初始化:神經網絡分為Actor網絡和Critic網絡兩個部分,Actor網絡為行為網絡、Critic網絡為評價網絡,每個部分又分別構建兩個結構完全相同而參數不同的eval net和target net,eval net為估計網絡、target net為目標網絡,從而形成μ(s|θμ)網絡、μ(s|θμ′)網絡、Q(s,a|θQ)網絡及Q(s,a|θQ′)網絡共四個網絡,即μ(s|θμ)網絡為行為估計網絡、μ(s|θμ′)網絡為行為目標網絡、Q(s,a|θQ)網絡為評價估計網絡、Q(s,a|θQ′)網絡為評價目標網絡;隨機初始化μ(s|θμ)網絡的參數θμ和隨機初始化Q(s,a|θQ)網絡的參數θQ,然后將μ(s|θμ)網絡的參數θμ值賦予行為目標網絡,即θμ′←θμ,將Q(s,a|θQ)網絡的參數θQ值賦予評價目標網絡,即θQ′←θQ;
步驟2)構造輸出干擾
根據當前輸入狀態st,通過網絡得到動作值at′,再設定一個均值為at′、方差為var2的隨機正態分布從隨機正態分布中隨機得到一個實際輸出動作值at,隨機正態分布對動作值at′施加了干擾,用于探索環境,其中,代表t時刻行為估計網絡的參數,t為當前輸入狀態的時刻;
步驟3)建立獎勵rt計算模型
步驟4)構建仿真環境
機器人仿真模擬軟件V-REP具有世界各大工業機器人的模型,基于此,機器臂的仿真環境搭建難度降低,通過V-REP(VirtualRobot Experimentation Platform)軟件,構建與實際應用相符的仿真環境;
步驟5)積累經驗池
5.1)根據當前輸入狀態st,通過網絡得到動作值at′,再根據步驟2)建立的輸出干擾得到實際輸出動作值at,并從環境中得到獎勵rt和后續輸入狀態st+1,將當前輸入狀態st,實際輸出動作值at,獎勵rt和后續輸入狀態st+1存儲在經驗池中,并將當前輸入狀態st、實際輸出動作值at、獎勵rt、后續輸入狀態st+1統稱為狀態轉移信息transition;
5.2)將后續輸入狀態st+1當做現在的當前輸入狀態st,重復步驟5.1),將計算得到的狀態轉移信息transition存儲在經驗池中;
5.3)重復步驟5.2)直至經驗池的空間被存儲滿,經驗池的空間被存儲滿后每執行一次步驟5.2)便跳轉執行一次步驟6);
步驟6)訓練深度強化學習神經網絡
6.1)取樣
從經驗池中取出batch組樣本供神經網絡學習,batch代表自然數;
6.2)對評價網絡參數進行更新
6.3)對行為估計網絡參數進行更新
6.4)對目標網絡參數進行更新
6.5)分為xm回合,每個回合重復步驟6.1)~6.4)xn次,每次重復6.1)~6.4)后,輸出干擾的var值更新為var=max{0.1,var=var×gamma},其中xm、xn代表自然數,gamma為大于零小于1的有理數;
步驟7)利用步驟6)中訓練好的深度增強學習模型在實際中控制機械臂運動
7.1)在真實環境中,工業ccd相機的輸入做預處理,t時刻的圖片通過高斯濾波后作為供神經網絡處理的狀態;
7.2)通過相機得到真實環境的當前輸入狀態st,深度增強學習網絡根據當前輸入狀態st控制機械臂轉動,得到后續輸入狀態st+1,將后續輸入狀態st+1當做當前輸入狀態st,如此循環,直至深度增強學習模型控制機械臂抓取到目標。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北工業大學,未經湖北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711275146.7/1.html,轉載請聲明來源鉆瓜專利網。





