[發明專利]基于深度強化學習的車輛路徑規劃方法及裝置在審
| 申請號: | 202210043667.4 | 申請日: | 2022-01-14 |
| 公開(公告)號: | CN114462687A | 公開(公告)日: | 2022-05-10 |
| 發明(設計)人: | 王甲海;廖易天 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q50/30;G06N3/04;G06N3/08;G06N7/00 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 梁嘉琦 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 車輛 路徑 規劃 方法 裝置 | ||
1.基于深度強化學習的車輛路徑規劃方法,其特征在于,包括:
搭建車輛路徑規劃問題的求解框架,確定初始參數信息;
搭建神經網絡模型作為破壞策略;
根據所述初始參數信息和所述破壞策略,將大鄰域搜索過程擬合成馬爾可夫決策過程;
根據所述馬爾可夫決策過程,通過強化學習方法訓練神經網絡模型;
通過訓練得到的神經網絡模型對所述車輛路徑規劃問題進行求解,得到車輛路徑規劃結果。
2.根據權利要求1所述的基于深度強化學習的車輛路徑規劃方法,其特征在于,所述搭建車輛路徑規劃問題的求解框架,確定初始參數信息,包括:
配置問題求解框架中目標解的位置特征和結點特征;
配置所述目標解的質量的計算函數。
3.根據權利要求2所述的基于深度強化學習的車輛路徑規劃方法,其特征在于,所述搭建車輛路徑規劃問題的求解框架,確定初始參數信息,還包括:
將結點序列進行位置編碼得到各結點位置特征;
將結點的個體特征劃分為靜態特征和動態特征;
其中,所述靜態特征包括二維坐標、貨物接收量、貨物投放量和服務時間窗;所述動態特征包括等待時間、所在路徑的最大貨物容量、當前貨物容量、與所在路徑的前后結點的之間距離及前后結點之間距離。
4.根據權利要求1所述的基于深度強化學習的車輛路徑規劃方法,其特征在于,所述搭建神經網絡模型作為破壞策略,包括:
將結點序列和結點個體特征輸入到編碼器中,所述編碼器將結點位置特征和結點個體特征進行交互,得到結點個體特征向量的序列和結點位置特征向量的序列;
將編碼器得到的結點個體特征向量和結點位置特征向量輸入到解碼器,通過所述解碼器計算結點間的概率矩陣;
所述解碼器根據概率矩陣選擇若干個結點作為破壞的結點集,得到關于當前解的大鄰域破壞策略;
輸出所選結點集合和動作概率。
5.根據權利要求4所述的基于深度強化學習的車輛路徑規劃方法,其特征在于,所述將結點位置特征和結點個體特征進行交互,得到結點個體特征向量的序列和結點位置特征向量的序列,包括:
將結點個體特征進行線性映射,得到高維的結點個體特征向量;
將結點序列信息通過位置編碼,得到高維的結點位置特征向量;
通過三個雙向協同注意力層對所述結點個體特征向量和所述結點位置特征向量進行特征提取,得到結點個體特征的嵌入向量序列和結點位置編碼的嵌入向量序列;
其中,所述結點個體特征向量的計算公式為:
所述結點位置特征向量的計算公式為:
其中,代表結點i的結點個體特征向量;W與B是可訓練的參數;(xi,yi)代表二維坐標;代表結點i的結點位置特征向量;pe(·)表示進行正弦位置編碼。
6.根據權利要求4所述的基于深度強化學習的車輛路徑規劃方法,其特征在于,所述根據概率矩陣選擇若干個結點作為破壞的結點集,得到關于當前解的大鄰域破壞策略,包括:
隨機選擇一個結點作為初始結點;
對概率矩陣中所述初始結點所在行進行softmax操作,把已選擇結點的概率設為0,按概率選擇第二個結點,然后再把已選擇結點的概率設為0,直至選擇Q個結點。
7.根據權利要求1所述的基于深度強化學習的車輛路徑規劃方法,其特征在于,所述根據所述初始參數信息和所述破壞策略,將大鄰域搜索過程擬合成馬爾可夫決策過程,包括:
根據當前解的結點序列和各結點個體特征確定當前狀態;
根據神經網絡輸出的結點集合確定動作;
根據修復后的解的結點序列和各結點個體特征確定下一個狀態;
根據前后狀態間解的質量差確定獎勵值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210043667.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于電動車輛的驅動電路及充放電方法
- 下一篇:凹版印刷機新型版輥裝卸小車
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





