[發明專利]一種基于深度強化學習的無人艇航跡控制方法有效
| 申請號: | 202011353012.4 | 申請日: | 2020-11-26 |
| 公開(公告)號: | CN112540614B | 公開(公告)日: | 2022-10-25 |
| 發明(設計)人: | 仲偉波;李浩東;馮友兵;常琦;許強;林偉;孫彬;胡智威;齊國慶 | 申請(專利權)人: | 江蘇科技大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02;G06N3/04;G06N3/08 |
| 代理公司: | 南京正聯知識產權代理有限公司 32243 | 代理人: | 杭行 |
| 地址: | 212003*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 無人 航跡 控制 方法 | ||
本發明屬于無人艇航跡控制領域,公開了一種基于深度強化學習的無人艇航跡控制方法。包括如下步驟:用于具有大遲滯性系統的無人艇航跡控制的深度強化學習框架,通過該深度強化學習框架使無人艇這類大遲滯性的非馬爾科夫系統也可通過深度強化學習取得良好的訓練效果。
技術領域
本發明屬于無人艇航跡控制領域,具體涉及一種基于深度強化學習的無人艇航跡控制方法。
背景技術
近年來深度神經網絡有了長足的發展,強化學習在結合了深度神經網絡后在下棋,游戲,推薦系統等方面取得了顯著成就。深度強化學習之所以能在這些領域取得良好的訓練效果是因為這些領域的規則都是比較明確的,其狀態的轉移嚴格符合馬爾科夫性,智能體在這些環境下受到的影響因素是較少而且可控的。而深度強化學習運用到無人艇時,無人艇受到的各種環境因素的影響很多,無人艇在不同環境下完成不同任務時我們考慮的環境因素有一定差別。無人艇能否獲得足夠多且足夠精確的環境信息是影響深度強化學習學習效果好壞的重要因素。而無人艇的航跡控制是無人艇完成其他許多任務的基礎,將深度強化學習運用到無人艇的航跡控制是無人艇自動控制邁向人工智能的重要一步。
發明內容
本發明設計了一種用于具有大遲滯性系統的無人艇航跡控制的深度強化學習框架,通過該深度強化學習框架使無人艇這類大遲滯性的非馬爾科夫系統也可通過深度強化學習取得良好的訓練效果。
本發明通過如下技術方案實現:一種基于深度強化學習的無人艇航跡控制方法,包括如下步驟:
步驟一:初始化一個決策網絡Q和一個目標網絡Q′的網絡參數;
步驟二:獲得無人艇當前狀態St,包括當前時刻的位置信息、速度信息、無人艇搭載的避障傳感器的數據,以及之前時刻舵角位置和螺旋槳輸出動力的信息;
步驟三:對無人艇的狀態信息進行預處理,對于船的大慣性我們將長度和角度信息的微分量引入到無人艇的狀態信息;對于計算板卡延遲我們將狀態信息的積分量引入到狀態信息;
步驟四:將狀態St′代入決策網絡Q并根據策略π(ac|s)得到動作ac和獎勵r;
步驟五:執行動作并進入下一狀態St+1并預處理得到狀態S′t+1;
步驟六:將(St′,S′t+1,ac,r)作為一條數據連同采樣優先級存儲到經驗池中;
步驟七:以采樣優先級作為采樣概率的依據采樣m條數據,投入目標網絡得到損失函數ω;
步驟八:用ω更新決策網絡Q;
步驟九:若i=n,則用決策網絡Q的參數更新一次目標網絡Q′,且令i=0;
步驟十:觀察是否達到訓練結束條件,達到了就結束訓練,否則跳轉到步驟二。
進一步,所述步驟二中,將舵角,螺旋槳輸出動力這些動作信息也作為狀態信息,作為狀態信息的一部分。
進一步,所述步驟三中,將狀態輸入到決策網絡中時,會對狀態S的數據進行預處理,使不滿足馬爾科夫性的大遲滯系統也可一定程度上滿足馬爾科夫性。
進一步,詳細設置了無人艇獲取的獎勵,防止由于獎勵稀疏問題導致的強化學習訓練效率低下。
進一步,所述步驟二中,動態調整訓練神經網絡的數據被采樣的概率,促進最新的數據能被盡早被利用,保證所有數據被均勻地使用。提高了數據的整體利用率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇科技大學,未經江蘇科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011353012.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:導航方法和車載導航設備
- 下一篇:一種具有成品老化檢測裝置的控制器





