[發明專利]基于強化學習的智能體路徑規劃方法、電子設備及介質在審
| 申請號: | 202210106163.2 | 申請日: | 2022-01-28 |
| 公開(公告)號: | CN114493013A | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 禹祎凡;付衛婷 | 申請(專利權)人: | 浙江同善人工智能技術有限公司 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 翁惠瑜 |
| 地址: | 314113 浙江省嘉*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 智能 路徑 規劃 方法 電子設備 介質 | ||
1.一種基于強化學習的智能體路徑規劃方法,其特征在于,包括:
根據智能體采集的狀態信息,通過訓練好的目標網絡獲取智能體從當前位置到目標位置之間的動作;
所述的目標網絡的訓練過程包括:
構建當前網絡,所述的目標網絡和當前網絡均為深度Q值網絡,迭代執行目標網絡更新步驟,直至目標網絡收斂;
所述的目標網絡更新步驟包括:
獲取智能體采集的狀態信息,進行數據預處理后存儲至優先經驗回放記憶庫;
根據優先經驗回放機制在記憶庫中選擇訓練樣本;
根據選擇的訓練樣本,通過動作選擇策略選擇動作;
根據選擇的動作更改環境信息,獲取智能體下一個狀態的環境信息,并進行數據預處理;
根據智能體下一個狀態的環境信息,獲取當前網絡的Q值Q當前網絡以及目標網絡的目標Q值Q′目標網絡,所述的當前網絡和
根據Q當前網絡和Q′目標網絡計算TD-error;
根據TD-error訓練當前網絡;
根據軟更新機制更新目標網絡的網絡參數;
更新記憶庫中樣本的選中概率。
2.根據權利要求1所述的一種基于強化學習的智能體路徑規劃方法,其特征在于,所述的動作選擇策略采用ε-greedy策略,公式為:
其中,a為動作,s為智能體采集的狀態信息,ε為智能體的探索率。
3.根據權利要求1所述的一種基于強化學習的智能體路徑規劃方法,其特征在于,所述的TD-error的計算公式為:
TD-error=|y′i-yi|
y′i=Q當前網絡
y′i=r+Q′目標網絡
其中,r為智能體執行一次動作后,通過獎懲策略計算得到的獎勵值;
所述的獎懲策略包括:
根據智能體執行一次動作后獲取的下一個狀態的環境信息,確定獎懲場景以及對應的獎懲值,通過累計獎懲值獲得獎勵值。
4.根據權利要求1所述的一種基于強化學習的智能體路徑規劃方法,其特征在于,通過以下公式更新記憶庫中樣本的選中概率:
pi=|δi|+ε2
其中,pi為選擇的訓練樣本在記憶庫中被選中的概率,|δi|為TD-error,ε2為設定值。
5.根據權利要求1所述的一種基于強化學習的智能體路徑規劃方法,其特征在于,所述的軟更新機制的計算公式為:
Q′=τQ+(1-τ)Q′
其中,Q′為目標網絡,Q為當前網絡,τ為更新比例。
6.根據權利要求1所述的一種基于強化學習的智能體路徑規劃方法,其特征在于,所述的狀態信息包括智能體的姿態信息、智能體通過相機獲取的圖像信息以及激光雷達獲取的雷達點云信息;
所述的數據預處理過程包括:
提取姿態信息、圖像信息以及雷達點云信息的特征矩陣,并進行拼接,獲得:環境信息數據。
7.根據權利要求6所述的一種基于強化學習的智能體路徑規劃方法,其特征在于,所述的姿態信息和雷達點云信息的特征矩陣的提取過程包括:
對姿態信息和雷達點云信息分別進行拼接,對拼接后的姿態信息和雷達點云信息分別進行數據疊幀;
通過LSTM網絡分別提取姿態信息和雷達點云信息的特征矩陣。
8.根據權利要求6所述的一種基于強化學習的智能體路徑規劃方法,其特征在于,所述的圖像信息的特征矩陣的提取過程包括:
壓縮圖像數據;
將圖像信息中的三通道彩色圖片轉換為單通道灰度圖;
對圖像信息進行數據疊幀;
通過基于CBAM注意力機制的CNN網絡提取圖像信息的特征矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江同善人工智能技術有限公司,未經浙江同善人工智能技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210106163.2/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





