[發明專利]一種空間機器人機械臂的控制方法有效
| 申請號: | 202110666012.8 | 申請日: | 2021-06-16 |
| 公開(公告)號: | CN113400307B | 公開(公告)日: | 2022-10-18 |
| 發明(設計)人: | 張濤;王圣杰;劉磊;張海博;胡海東;周玉新 | 申請(專利權)人: | 清華大學;北京控制工程研究所 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16;B25J17/02;B25J18/00 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 羅文群 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 空間 機器人 機械 控制 方法 | ||
1.一種空間機器人機械臂的控制方法,其特征在于,首先獲取空間機器人基座相機采集的圖像,設定用于機械臂控制過程中的獎勵函數;構建機械臂控制策略網絡、狀態動作價值網絡和狀態價值網絡,通過向控制策略網絡輸入圖像,輸出動作信息控制機械臂,并多次交互積累交互信息對形成經驗池;根據最大熵強化學習構建各個網絡訓練所需的目標函數,利用經驗池中的交互信息對使用梯度下降算法對各個網絡參數進行訓練,得到訓練后的機械臂控制策略網絡,輸入圖像信息,輸出動作信息控制機械臂,
其中,所述控制方法的具體步驟如下:
(1)根據馬爾可夫決策過程建模機械臂的控制,獲取空間機器人基座相機采集的圖像,并定義t時刻的圖像為狀態信息st,形式為W*H*3的矩陣,其中3個維度包括了RGB三色的通道,每個維度的圖像包換W*H個像素,其中W為圖像的寬度,H為圖像的高度;將空間機器人關節的角速度at作為動作信息,t代表采樣時刻;
(2)設定一個用于機械臂控制過程中的獎勵函數rt(st,at),完成馬爾可夫決策過程的建模;獎勵函數rt(st,at)的表達式如下:
rt(st,at)=-[β1d2+ln(β2d2+∈d)+β3||at-at-1||2]
其中,pe為空間機器人機械臂的末端位置,pt為空間機器人機械臂的目標位置,d為歐式距離,d=||pe-pt||,β1=10-3,β2=1,β3=10-1,∈d的作用是防止ln函數出現奇異,∈d=0.001,上標T為矩陣轉置;
(3)構建一個機械臂控制策略網絡其中代表機械臂控制策略網絡的參數,向機械臂控制策略網絡輸入圖像st,以得到動作信息角速度at,具體包括以下步驟:
(3-1)機械臂控制策略網絡的第一層為卷積神經網絡,卷積神經網絡的卷積核權重W1為一個Gw1*Lw1*Mw1矩陣,其中,Gw1為該卷積核的通道數,Lw1為該卷積核的寬度,Mw1為該卷積核的高度;
(3-2)機械臂控制策略網絡的第二層為批次歸一化層,批次歸一化層將上一層中得到的多層特征層分別做歸一化處理,歸一化參數的數量與特征層的層數線性正相關;
(3-3)機械臂控制策略網絡的第三層為最大值池化層,最大值池化層的濾波器P1為2*2的矩陣;
(3-4)機械臂控制策略網絡的第四層為卷積神經網絡,卷積神經網絡的卷積核權重W2為一個Gw2*Lw2*Mw2矩陣,其中,Gw2為該卷積核的通道數,Lw2為該卷積核的寬度,Mw2為該卷積核的高度;
(3-5)機械臂控制策略網絡的第五層為批次歸一化層,批次歸一化層將上一層中得到的多層特征層分別做歸一化的處理,歸一化參數的數量和特征層的層數線性正相關;
(3-6)機械臂控制策略網絡的第六層為最大值池化層,最大值池化層的濾波器P2為2*2的矩陣
(3-7)機械臂控制策略網絡的第七層為卷積神經網絡,卷積神經網絡的卷積核權重W3為一個Gw3*Lw3*Mw3矩陣,其中,Gw3為該卷積核的通道數,Lw3為該卷積核的寬度,Mw3為該卷積核的高度;
(3-8)機械臂控制策略網絡的第八層為批次歸一化層,批次歸一化層將上一層中的到的多層特征層分別做歸一化的處理,歸一化參數的數量和特征層的層數有關;
(3-9)機械臂控制策略網絡的第九層為最大值池化層,最大值池化層的濾波器P3為2*2的矩陣;
(3-10)機械臂控制策略網絡的第十層為全連接神經網絡,輸入的神經元個數為上一層輸出的特征層展平后的特征數量F9,輸出的神經元個數為F10,神經元權重為W10;
(3-11)機械臂控制策略網絡的第十一層為全連接神經網絡,輸入的神經元個數為上一層輸出的F10,輸出的神經元個數為F11,神經元權重為W11;
(3-12)機械臂控制策略網絡的第十二層為全連接神經網絡,輸入的神經元個數為上一層輸出的F11,輸出的神經元個數為高斯分布的均值和方差神經元權重為W12;
(3-13)根據步驟(3-1)~(3-12),得到機械臂控制策略網絡
(3-14)向步驟(3-13)的機械臂控制策略網絡輸入步驟(1)采集的RGB三通道圖像st,機械臂控制策略網絡輸出得到高斯分布的均值μt和方差∑t,均值μt和方差∑t組合成空間機器人關節的角速度at的概率分布通過采樣得到機械臂關節的角速度at;
(4)根據馬爾可夫決策過程原理,構建一個機械臂狀態價值網絡Vψ,其中ψ代表機械臂狀態價值網絡的參數,通過輸入圖像st得到狀態價值vt,具體包含以下步驟:
(4-1)重復步驟(3-1)-步驟(3-11),構建機械臂狀態價值網絡Vψ的第一層到第十一層的網絡結構;
(4-2)機械臂狀態價值網絡Vψ的第十二層為全連接神經網絡,輸入的神經元個數為上一層輸出的F11,輸出的神經元為狀態的價值函數vt,神經元權重為W12;
(4-3)根據步驟(4-1)-步驟(4-2),得到機械臂狀態價值網絡Vψ;
(5)根據馬爾可夫決策過程原理,構建一個機械臂狀態動作價值網絡Qθ,其中θ代表機械臂狀態動作價值網絡的參數,向機械臂狀態動作價值網絡Qθ輸入圖像st和關節角速度at,得到狀態動作價值qt的映射關系,具體包含以下步驟:
(5-1)重復步驟(3-1)-步驟(3-10),構建機械臂狀態動作價值網絡Qθ的第一層到第十層的網絡結構;
(5-2)機械臂狀態動作價值網絡Qθ的第十一層為全連接神經網絡,輸入的神經元個數為上一層輸出的F10和空間機器人的關節角速度at合并后的數量,輸出的神經元個數為F11,神經元權重為W11;
(5-3)機械臂狀態動作價值網絡Qθ的第十二層為全連接神經網絡,輸入的神經元個數為上一層輸出的F11,輸出的神經元為狀態動作價值函數qt,神經元權重為W12;
(5-4)根據步驟(5-1)-步驟(5-3),得到機械臂狀態動作價值網絡Qθ;
(6)向步驟(3)的機械臂控制策略網絡輸入步驟(1)采樣時刻t采集的圖像st,輸出為機械臂的關節角速度at,將該關節角速度at輸出到一個比例微分控制器C中,比例微分控制器C輸出得到關節扭矩,實現對機器人的控制;將采樣時刻t采集的圖像st和關節跟蹤期望的關節角速度at輸入到步驟(2)的獎勵函數,得到獎勵值rt,并且得到t+1時刻的圖像st+1,得到t時刻的交互信息對Et=<st,at,rt,st+1>;
(7)遍歷T時段內采集的所有圖像st=1:T,重復上述步驟(6),得到多組交互信息對,多組交互信息對構成一個經驗回放池D,分別向步驟(4)的機械臂狀態價值網絡Vψ和步驟(5)的機械臂狀態動作價值網絡Qθ輸入不同采樣時刻采集的圖像st,得到狀態價值vψ(st)和狀態動作價值qt(st,at);
(8)根據最大熵強化學習,建立優化目標,使策略的累積獎勵和熵最大化:
其中,表示信息熵,α表示學習中策略的最大化隨機程 度;
(9)采用最小化貝爾曼殘差對機械臂狀態動作價值網絡Qθ的參數進行訓練,得到機械臂狀態動作價值網絡Qθ在最優參數JQ(θ)的表達式:
(10)通過最小化平方損失值,對機械臂狀態價值網絡Vψ的參數訓練,得到機械臂狀態價值網絡Vψ的最優參數JV(ψ)表達式:
(11)通過最小化期望的相對熵散度,對策略函數進行訓練,得到策略函數優化參數表達式:
其中,α表示學習中策略的最大化隨機程 度;
(12)以步驟(9)~步驟(11)得到的訓練目標,使用梯度下降法,訓練步驟(3)~步驟(5)的機械臂控制策略網絡狀態動作價值網絡Qθ和狀態價值網絡Vψ,完成對網絡的訓練;
(13)實時采集搭載在空間機器人基座上的相機得到的圖像st,將實時采集的圖像st輸入到步驟(12)的機械臂控制策略網絡輸出得到采樣時刻t下的機械臂關節角速度at,實現對空間機器人機械臂的控制,并實現在T時段內軌跡規劃任務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學;北京控制工程研究所,未經清華大學;北京控制工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110666012.8/1.html,轉載請聲明來源鉆瓜專利網。





