[發明專利]一種基于深度強化學習的無人艇航跡控制方法有效
| 申請號: | 202011353012.4 | 申請日: | 2020-11-26 |
| 公開(公告)號: | CN112540614B | 公開(公告)日: | 2022-10-25 |
| 發明(設計)人: | 仲偉波;李浩東;馮友兵;常琦;許強;林偉;孫彬;胡智威;齊國慶 | 申請(專利權)人: | 江蘇科技大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02;G06N3/04;G06N3/08 |
| 代理公司: | 南京正聯知識產權代理有限公司 32243 | 代理人: | 杭行 |
| 地址: | 212003*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 無人 航跡 控制 方法 | ||
1.一種基于深度強化學習的無人艇航跡控制方法,其特征在于:包括如下步驟:
步驟一:初始化一個決策網絡Q和一個目標網絡Q′的網絡參數;
步驟二:獲得無人艇當前狀態St,包括當前時刻的位置信息、速度信息、無人艇搭載的避障傳感器的數據,以及之前時刻舵角位置和螺旋槳輸出動力的信息;
步驟三:對無人艇的狀態信息進行預處理,對于船的大慣性將長度和角度信息的微分量引入到無人艇的狀態信息;對于船的遲滯性將狀態信息的積分量引入到狀態信息,形成狀態S′t,其中S′t=(St,St-1,St-2…St-λ);
步驟四:將狀態S′t代入決策網絡Q并根據策略π(ac|s)得到動作ac和獎勵r,
獎勵函數為:
r=k·rv·ry+rs+rz
其中:rv為速度獎勵,以靠近當前目標航跡點方向上的速度設置獎勵,無人艇與目標航跡的水平距離為xt,且xt≥0
ry為航跡控制獎勵,無人艇航行貼線精度越高獎勵越大,無人艇與目標航跡的垂直距離為yt,且yt≥0
rs為位置獎勵,無人艇越靠近目標位置獎勵越大,與目標航跡點距離越小,獎勵越大,與目標航跡點距離為
無人艇到達目標航跡點的范圍閾值d內,無人艇的當前航跡點更新為下一航跡點;
rz為避障獎勵,通過避障傳感器無人艇可以獲得無人艇前方障礙物信息,以無人艇航行速度的大小設置動態的安全距離gvd,當小于安全距離時無人艇獲得負獎勵,
以上公式中字母a,b,c,d,g,h,k均為常數;
步驟五:執行動作并進入下一狀態St+1并預處理得到狀態S′t+1;
步驟六:將(St′,S′t+1,ac,r)作為一條數據連同采樣優先級存儲到經驗池中;
步驟七:以采樣優先級作為采樣概率的依據采樣m條數據,投入目標網絡得到損失函數ω;
步驟八:用損失函數ω更新決策網絡Q;
步驟九:若i>=n,則用決策網絡Q的參數更新一次目標網絡Q′,且令i=0,
i為決策網絡Q的更新次數,n為預設常量;
步驟十:觀察是否達到訓練結束條件,達到了就結束訓練,否則跳轉到步驟二。
2.根據權利要求1所述的一種基于深度強化學習的無人艇航跡控制方法,其特征在于:所述步驟二中,將之前時刻舵角,螺旋槳輸出動力這些動作信息也作為狀態信息,作為當前狀態信息的一部分。
3.根據權利要求1所述的一種基于深度強化學習的無人艇航跡控制方法,其特征在于:所述步驟三中,將狀態S′t輸入到狀態動作值函數網絡中,使不滿足馬爾科夫性的大遲滯系統也可一定程度上滿足馬爾科夫性。
4.根據權利要求1所述的一種基于深度強化學習的無人艇航跡控制方法,其特征在于:所述步驟二中,動態調整訓練神經網絡的數據被采樣的概率,促進最新的數據能被盡早被利用,保證所有數據被均勻地使用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇科技大學,未經江蘇科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011353012.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:導航方法和車載導航設備
- 下一篇:一種具有成品老化檢測裝置的控制器





