[發明專利]一種基于強化學習的水下自主機器人固定深度控制方法有效
| 申請號: | 201710850098.3 | 申請日: | 2017-09-20 |
| 公開(公告)號: | CN107748566B | 公開(公告)日: | 2020-04-24 |
| 發明(設計)人: | 宋士吉;武輝;游科友 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G05D1/04 | 分類號: | G05D1/04;G05B13/04;G05B13/02 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 廖元秋 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 水下 自主 機器人 固定 深度 控制 方法 | ||
1.一種基于強化學習的水下自主機器人固定深度控制方法,其特征在于,包括以下步驟:
1)構建水下自主機器人AUV固定深度控制的馬爾科夫決策過程模型;
馬爾科夫決策過程模型包括四個組成部分:狀態變量,控制變量,轉移模型,一步損失函數;具體步驟如下:
1-1)確定狀態變量;
令z表示AUV在慣性坐標系下的深度,表示慣性坐標系下AUV前進方向與X軸夾角,w表示AUV在自身坐標系下縱向的速度,q表示AUV在自身坐標系下繞V軸轉動的角速度
設AUV目標深度在慣性坐標系下為zr,則AUV所處深度與目標深度之間的相對深度為z-zr;
則AUV狀態變量表達式為:
1-2)確定控制變量;
控制變量表達式為u=[τ1,τ2]T;其中,τ1表示施加在AUV縱向上的推力,τ2表示驅使AUV繞y軸轉動的扭矩;
1-3)確定轉移模型;
轉移模型為一個時間離散的黑箱函數,表達式如下:
xt+1=f(xt,ut,Δt)
其中Δt表示轉移模型中存在的t時刻不確定性的擾動;該轉移模型表示在給定當前t時刻狀態變量與控制變量,返回下一時刻的狀態變量;
1-4)確定一步損失函數;
一步損失函數用于評價在AUV在某個時刻狀態下執行控制變量的效果,表達式如下:
其中,k表示第k個時刻,ρ1、ρ2、ρ3、ρ4、λ1、λ2分別表示各項的權重系數;保證AUV到達指定深度的同時前進方向與x軸一致,使AUV的縱向速度與轉動角速度盡可能小,λ1(τ1,k-τ1,k-1)2+λ2(τ2,k-τ2,k-1)2防止控制變量出現震蕩的現象;
1-5)確定目標函數;AUV固定深度控制目標為使得AUV到達并維持在指定的深度,即最小化期望累計損失函數,因此馬爾科夫決策過程模型的目標函數表達式如下:
s.t.xk+1=f(xk,uk,Δk)k=1,...,∞
其中,uk≥1表示控制變量的輸入序列{u1,u2,...},Δk≥1表示擾動序列{Δ1,Δ2,...},γ表示對未來損失的權重的折現因子,0<γ<1;
2)構建評價網絡與策略網絡;
2-1)構建評價網絡;
評價網絡的輸入為狀態變量,輸出為控制變量,函數表達式如下:
u=μ(x)
2-2)構建策略網絡;
策略網絡的輸入為狀態變量和控制變量,輸出為損失量,函數表達式如下:
該函數表示在給定初始狀態變量與初始控制變量,按照控制變量μ進行控制取得的長期損失函數;
3)采用確定性策略梯度進行水下自主機器人固定深度控制;具體步驟如下:
3-1)參數設置;
令最大迭代次數為M=500,每次迭代的最大實驗步數T=1000,經驗回放抽取的訓練集大小N=64,目標神經網絡的追蹤比率τ=0.9,評價網絡與策略網絡的學習率分別為αω=0.01和αθ=0.001,折現因子為γ=0.99;
3-2)對評價網絡和策略網絡分別初始化;
令ω和θ分別表示評價網絡和策略網絡的權重參數,則評價網絡與策略網絡的參數化表達式分別為Q(x,u|ω)和μ(x|θ),兩個網絡的權重參數初始值均為0;將初始化后的評價網絡記為當前評價網絡,初始化后的策略網絡記為當前策略網絡;
分別復制兩個網絡初始權重構造兩個新的網絡作為目標評價網絡和目標策略網絡
構建經驗隊列集合R并初始化為空;
3-3)迭代開始,令初始化迭代次數為m=1;
3-4)初始化時刻為t=0;隨機初始化AUV的狀態變量記為x0=[w0,q0,z0-zr,cos(θ0),sin(θ0)]T,并令xt=x0;
3-5)使用當前策略網絡μ(x|θ)生成t時刻控制變量并添加探索噪聲記為ut=μ(xt|θ)+Δut;輸入控制量ut與狀態xt,AUV通過步驟1-3)得到的轉移模型返回下一時刻狀態變量xt+1,利用一步損失函數計算該步轉移的損失函數ct+1;
3-6)將步驟3-4)至3-5)得到的數據記為一個經驗樣本et=(xt,ut,ct+1,xt+1),存入經驗隊列R,并計算該經驗樣本對應的優先級PRIt,表達式如下:
3-7)統計經驗隊列中的經驗樣本個數為NR并判定:若NR≤N,則轉到步驟3-12);若NR>N,則進入步驟3-8);
3-8)從經驗隊列R中隨機抽取N個經驗樣本e1,e2,...,eN,每個樣本被抽到的概率與該樣本對應的的優先級PRI成正比;
3-9)按照以下公式更新評價網絡權重:
δi=yi-Q(xi,ui|ω)
將更新后的評價網絡記為新的當前評價網絡;并重新計算每個被抽取的經驗樣本ei的優先級:
PRIi=|δi|
3-10)采用確定性策略梯度更新策略網絡權重:
將更新后的的策略網絡記為新的當前策略網絡;
3-11)按照以下公式更新目標評價網絡權重與目標策略網絡權重:
更新完畢后,進入步驟3-12);
3-12)令t=t+1并對t進行判定:若t<T,則重新返回步驟3-5),AUV繼續下一步的深度控制;否則,進入步驟3-13);
3-13)令m=m+1并對m進行判定:若m<M,則重新返回步驟3-4),AUV隨機選擇一個新的初始位置開始新一次的固定深度控制;否則迭代結束,將迭代終止時的當前策略網絡μ(x|θ)作為最終的策略網絡,記為μ*(x|θ);將狀態變量輸入μ*(x|θ),該網絡輸出相應的控制變量實現對AUV的固定深度控制。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710850098.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種綜合性服務機器人
- 下一篇:用于無人機的運動控制方法、裝置及無人機系統





