[發明專利]一種基于強化學習的無人平臺路徑規劃方法及裝置在審
| 申請號: | 202011638903.4 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112836852A | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 吳宇航;查文中;孟祥瑞;李康 | 申請(專利權)人: | 中國電子科技集團公司信息科學研究院 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06N3/08 |
| 代理公司: | 北京中知法苑知識產權代理有限公司 11226 | 代理人: | 李明;趙吉陽 |
| 地址: | 100086 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 無人 平臺 路徑 規劃 方法 裝置 | ||
本發明實施例公開了一種本發明實施例提供的基于強化學習的無人平臺路徑規劃方法及裝置,采用傳統的全連接深度神經網絡,無需地圖先驗知識,因此,可以適應完全未知的環境。并且,通與環境的不斷交互學習,強化學習得到環境信息,使無人平臺可以在未知環境中實現路徑規劃。同時,本發明實施例根據隨機離散策略生成訓練數據,利用該數據可訓練深度神經網絡,使無人平臺由所在區域的任意初始位置出發到任意目標位置。
技術領域
本發明涉及無人平臺技術領域,特別是涉及一種基于強化學習的無人平臺路徑規劃方法及裝置。
背景技術
近年來,隨著人工智能和無線傳輸技術的迅速發展,無人應用逐漸在眾多領域中得到重視,其中,無人汽車、無人飛機和無人探測器等無人平臺,越來越多地應用于軍事、工業交通以及探測等領域。
路徑規劃是無人平臺實現自主控制的重要前提條件。通過路徑規劃,無人平臺可在設定區域內找到一條從起點到終點的無碰撞安全路徑。目前,無人平臺的路徑規劃方法主要包括以下幾個方面:1)基于馬爾可夫過程的Q學習(Q-learning)算法;2)基于模擬退火的Q學習算法(SA-Q);3)傳統的控制率方法;4)基于競爭網絡結構的改進深度雙Q網絡方法。
但是,上述路徑規劃的方法均具有不同程度的缺陷,其中,Q-learning算法的路徑規劃方法,對于高維狀態的空間擬合效果較差,并且該方法需要具備先驗知識,不能實現對未知環境的路徑規劃;基于模擬退火的Q學習算法,同樣對于高維狀態空間擬合效果較差,且缺乏起點到終點的中間狀態,不利于模型學習;控制率方法應用范圍受限,且該方法不具備學習功能,不能從環境中學習到路徑規劃的智能行為;改進深度雙Q網絡方法,需要具備環境的先驗知識,并不能應用于未知環境。因此,亟需一種能夠面向未知環境且可自主學習的路徑規劃方法。
發明內容
本發明實施例中提供了一種基于強化學習的無人平臺路徑規劃方法及裝置,以解決現有路徑規劃方法無法應用于未知環境,并且無法自主學習的問題。
為了解決上述技術問題,本發明實施例公開了如下技術方案:
一種基于強化學習的無人平臺路徑規劃方法,包括:
建立路徑規劃的目標網絡和訓練網絡,所述目標網絡和訓練網絡均為深度神經網絡,且目標網絡與訓練網絡具有相同的結構和初始參數值;
根據目標網絡和訓練網絡構建目標函數;
采用隨機離散策略生成多組訓練數據;
利用訓練數據以及目標函數修正目標網絡和訓練網絡的參數值;
根據修正后的訓練網絡生成路徑規劃模型;
獲取無人平臺的當前位置和目標位置;
利用路徑規劃模型獲得無人平臺從當前位置向目標位置運行的路徑規劃數據。
可選的,所述根據目標網絡和訓練網絡構建目標函數,包括:
按照以下公式建立目標函數:
Loss=(r+γmaxQ(a')-Q(ai))2
其中,maxQ(a')為以目標網絡為計算基礎,所有行動方向對應總體收益中的最大值;
Q(ai)為以訓練網絡為計算基礎,行動方向為ai時的總體收益;
γ為預設的常數;
r為無人平臺本次行動獲得的收益;
Loss為目標函數的函數值。
可選的,所述無人平臺本次行動獲得的收益r由以下公式計算得到:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司信息科學研究院,未經中國電子科技集團公司信息科學研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011638903.4/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





