[發明專利]一種基于強化學習策略迭代技術的城市路網路徑規劃方法在審
| 申請號: | 202211299635.7 | 申請日: | 2022-10-24 |
| 公開(公告)號: | CN115574825A | 公開(公告)日: | 2023-01-06 |
| 發明(設計)人: | 梁棟;王慧敏;席宇亮 | 申請(專利權)人: | 安徽大學 |
| 主分類號: | G01C21/20 | 分類號: | G01C21/20;G01C21/34;G06F30/20;G06Q10/04;G06Q50/26;G06N3/04;G06N3/08;G06F111/08 |
| 代理公司: | 合肥國和專利代理事務所(普通合伙) 34131 | 代理人: | 張祥騫 |
| 地址: | 230031*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 策略 技術 城市 路網 路徑 規劃 方法 | ||
1.一種基于強化學習策略迭代技術的城市路網路徑規劃方法,其特征在于,包括以下步驟:
11)城市路網數據模型的構建:獲取路網數據并進行預處理,建立路網數據與路網環境的拓撲關系,構建出城市路網數據模型;
12)路網環境中強化學習模型要素的設計:基于城市路網數據模型中的路網環境,根據智能體是否到達終點對獎勵函數進行詳細設計;
13)正常狀態下城市路網最優路徑的生成:基于獎勵函數要素引導智能體向終點探索,并利用強化學習策略迭代方法生成最優路徑;
14)城市極端路網環境下最優路徑的生成:在路網通行壓力全為0的極端路網環境下,由于基于強化學習策略迭代的路徑規劃方法存在收斂性問題,故分析強化學習策略迭代方法收斂的充分條件以及關鍵超參數,即折扣因子γ和finalReward的取值及其相互關系對收斂性的影響,以此收斂充分條件和超參數取值關系對強化學習策略迭代的路徑規劃方法進行優化,在極端路網環境下生成最優路徑。
2.根據權利要求1所述的一種基于強化學習策略迭代技術的城市路網路徑規劃方法,其特征在于,所述城市路網數據模型的構建包括以下步驟:
21)利用城市路網矢量圖,將所有道路在交匯處進行打斷,并在打斷處添加結點;
22)設定結點crossing代表路口、每兩個結點之間的弧段代表路段link,并將路網通行壓力考慮在內,將城市路網數據模型抽象為無向圖;
23)設定城市路網數據模型包括:
結點集合V:V={crossing1,crossing2,crossing3,...,crossingN},
路段集合E:E={link1,link2,link3,...,linkN};
其中,路段集合的屬性包括:路段編號、路段通行壓力指數、路段里程;結點集合屬性包括:路口編號、相連路段編號、相關聯路口編號;
將路網通行壓力設置為0、1、2、3、4這五個等級,分別代表通暢、基本通暢、緩行、擁堵、嚴重擁堵。
3.根據權利要求1所述的一種基于強化學習策略迭代技術的城市路網路徑規劃方法,其特征在于,所述路網環境中強化學習模型組成要素的設計包括以下步驟:
31)設計城市路網環境中的強化學習模型組成要素,設定如下:
智能體指路網環境中車輛的駕乘人員,其行為目標是從起點以最短的通勤時間抵達終點:狀態空間S表示城市路網中的各個路口;動作空間A為駕駛員采取的行動,即智能體在每個路口的可行駛方向,動作空間A個數為3-6個;狀態轉移概率P是智能體在某個路口選擇一個行駛方向動作時跳轉到下一個路口的概率;在城市道路路徑規劃這一場景條件下,狀態轉移概率均為1,即當在某個路口選定一個方向行駛后,下個路口也隨之確定;獎勵函數R是指智能體對從始點到終點所獲得的獎勵;
32)進行獎勵函數R的設計,獎勵函數R根據智能體是否到達終點分為兩種情況:
321)當智能體到達終點時設計的獎勵函數為:
R=move_utility*linkLength+congestion_penalty*pressure+finalReward,
其中,move_utility是智能體移動單位距離付出的代價,congestion_penalty是道路擁堵懲罰,finalReward是到達終點的獎勵,linkLength表示路段長度,pressure表示路段通行壓力;
322)當智能體到達某一路口時,獎勵函數設計為:
R=move_utility*linkLength+distance_reward*dci+
congestion_penalty*pressure,
其中,distance_reward用于判斷智能體有無向終點目標前進,其取值分為兩種:
dci表示距離貢獻指數,用來衡量智能體通過某一路段后對縮短當前路口與終點距離的貢獻,是當前路口與終點的直線距離和下個路口與終點的直線距離差的絕對值與路段長度的比值;
其中,設定move_utility取值-0.00002,congestion_penalty取值-3.2,折扣因子γ為1,finalReward取值20。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽大學,未經安徽大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211299635.7/1.html,轉載請聲明來源鉆瓜專利網。





