[發明專利]基于深度增強學習的工業機械臂自動控制方法有效
| 申請號: | 201711275146.7 | 申請日: | 2017-12-06 |
| 公開(公告)號: | CN108052004B | 公開(公告)日: | 2020-11-10 |
| 發明(設計)人: | 柯豐愷;周唯倜;趙大興;孫國棟;許萬;丁國龍;吳震宇;趙迪 | 申請(專利權)人: | 湖北工業大學 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04;G06F30/27;G06N3/04;G06N3/08;B25J9/16 |
| 代理公司: | 武漢開元知識產權代理有限公司 42104 | 代理人: | 王和平;張繼巍 |
| 地址: | 430068 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 增強 學習 工業 機械 自動控制 方法 | ||
本發明涉及一種基于深度增強學習的工業機械臂自動控制方法,構建深度增強學習模型、構造輸出干擾、建立獎勵rt計算模型、構建仿真環境、積累經驗池、訓練深度強化學習神經網絡及利用訓練好的深度增強學習模型在實際中控制機械臂運動。通過加入深度增強學習網絡,解決機械臂在復雜環境的自動控制問題,完成機械臂的自動控制,且訓練完成后運行速度快、精度高。
技術領域
本發明屬于強化學習算法技術領域,具體涉及一種基于深度增強學習的工業機械臂自動控制方法。
背景技術
工業機械臂相對于人力來說,可以更加高效的完成一些簡單重復而又笨重的操作,在極大的提高生產效率的同時,還可以降低勞動成本與勞動強度,在保障生產質量的同時又能降低人工事故發生的概率。在一些惡劣環境中,如高溫、高壓、低溫、低壓、粉塵、易燃、易爆等,由機械臂代替人工作業,能夠防止因為操作疏忽而導致的人工事故,具有重大意義。
機械臂的運動求解過程為首先獲取抓取目標的位姿信息,然后獲得自身的位姿信息,通過逆向動力學求解出各個軸的旋轉角度。由于運動過程中關節與連桿的柔性效應的存在,使結構發生變形,精度降低。所以實現柔性機械臂的控制是一大問題。常見的控制方法有PID控制、力反饋控制、自適應控制、模糊與神經網絡控制等。其中神經網絡控制具有明顯的優點即不需要被控制對象的數學模型,并且在未來人工智能的社會,基于神經網絡的自動控制將會是主流。
發明內容
本發明的目的就是提供一種基于深度增強學習的工業機械臂自動控制方法,通過加入深度增強學習網絡,解決機械臂在復雜環境的自動控制問題,完成機械臂的自動控制。
為實現上述目的,本發明所設計的基于深度增強學習的工業機械臂自動控制方法,其特征在于:所述控制方法包括如下步驟:
步驟1)構建深度增強學習模型
1.1)經驗池初始化:設定經驗池為m行、n列的二維矩陣,二維矩陣中每個元素的值初始化為0,其中,m為樣本容量大小、n為每個樣本儲存的信息數量,n=2×state_dim+action_dim+1,state_dim為狀態的維度、action_dim為動作的維度;同時,在經驗池中預留出用于存儲獎勵信息的空間,n=2×state_dim+action_dim+1這個公式中的1即為存儲獎勵信息的預留空間;
1.2)神經網絡初始化:神經網絡分為Actor網絡和Critic網絡兩個部分,Actor網絡為行為網絡、Critic網絡為評價網絡,每個部分又分別構建兩個結構完全相同而參數不同的eval net和target net,eval net為估計網絡、target net為目標網絡,從而形成μ(s|θμ)網絡、μ(s|θμ′)網絡、Q(s,a|θQ)網絡及Q(s,a|θQ′)網絡共四個網絡,即μ(s|θμ)網絡為行為估計網絡、μ(s|θμ′)網絡為行為目標網絡、Q(s,a|θQ)網絡為評價估計網絡、Q(s,a|θQ′)網絡為評價目標網絡;隨機初始化μ(s|θμ)網絡的參數θμ和隨機初始化Q(s,a|θQ)網絡的參數θQ,然后將μ(s|θμ)網絡的參數θμ值賦予行為目標網絡,即θμ′←θμ,將Q(s,a|θQ)網絡的參數θQ值賦予評價目標網絡,即θQ′←θQ;
步驟2)構造輸出干擾
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北工業大學,未經湖北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711275146.7/2.html,轉載請聲明來源鉆瓜專利網。





