[發明專利]一種基于深度強化學習的多乘客動態車輛路徑優化方法有效
| 申請號: | 202110478381.4 | 申請日: | 2021-04-30 |
| 公開(公告)號: | CN113189998B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 劉瑋;甘陳峰;王寧 | 申請(專利權)人: | 武漢工程大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02;G06Q10/047;G06Q50/26;G06N3/09;G06N3/096 |
| 代理公司: | 湖北武漢永嘉專利代理有限公司 42102 | 代理人: | 唐萬榮 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 乘客 動態 車輛 路徑 優化 方法 | ||
本發明提供了一種基于深度強化學習的多乘客動態車輛路徑優化方法,針對大量乘客的動態巴士路線規劃的問題,使用深度強化學習中的神經網絡DQN代替表格數據存儲方式,解決了維度爆炸的缺陷,實現了在開放環境下優化大量乘客的浮動巴士路徑的功能。本發明滿足了巴士運行動態路線變化的需求,為管理者進行應急處置、應急決策提供了技術支撐。本發明通過模擬乘客分布對現實的巴士規劃做出參考,提高了城市規劃效率。
技術領域
本發明屬于智能交通技術領域,具體涉及一種基于深度強化學習的多乘客動態車輛路徑優化方法。
背景技術
巴士系統是城市交通系統重要的一環,結合自適應系統的研究,創建動態、智能的巴士系統提高人群的出行效率。浮動巴士系統是以一種典型的以人為中心(AutonomousHuman?Adaptive?Systems,AHASs)的自適應系統。浮動巴士系統中,以巴士為載體,以人為核心,使用軟件或算法為主導。系統的浮動性來自于系統所處的動態,開放環境,例如道路環境的變化,天氣的影響和突發狀況等。浮動巴士系統是AHASs的實現,提高質量,增加效率,降低成本等根本需求,在該系統以人為中心的核心下,轉化成了提高巴士運輸效率,降低乘客等待時間,優化線路等需求。
現有的智能巴士領域研究在優化線路、降低能耗和減少乘客等待時間三個方面有一定的進展,但針對較大人流量下的浮動巴士路徑優化問題少有涉足,現實場景中的乘客運輸除了環境持續變化之外,往往存在通行人數遠超過模擬案例的情況。
發明內容
本發明要解決的技術問題是:提供一種基于深度強化學習的多乘客動態車輛路徑優化方法,用于優化大人流量下的浮動巴士路徑。
本發明為解決上述技術問題所采取的技術方案為:一種基于深度強化學習的多乘客動態車輛路徑優化方法,包括以下步驟:
S1:構建車輛運行的狀態動作空間;
S2:以車輛作為強化學習的主體,根據不同情況設定不同的獎勵值和懲罰值;
S3:搭建具有經驗回放機制的DQN算法,建立DQN深度神經網絡,并訓練車輛讓實際Q值趨近目標Q值;
S4:進行監督學習,通過確定損失函數、梯度獲得最優的動態車輛路徑。
按上述方案,所述的步驟S1中,具體步驟為:設車輛的通行范圍在道路的起點和終點之間;在車輛的通行范圍內設有車站、特殊區域、信號燈;車站為行人的上下車地點,車站帶有停車屬性;行人為參與交通的實體,分布在車站的附近,行人分別帶有不同的通行計劃屬性;特殊區域分布在道路的兩旁,車輛在經過特殊區域時進行減速操作;信號燈用于控制交通。
進一步的,所述的步驟S2中,具體步驟為:
設參與學習的車輛的狀態為S,車輛在狀態S下的動作為A,對車輛的動作的獎勵或懲罰的值為R,車輛的狀態發生改變的狀態轉移概率為P;定義四元組A,S,R,P和獎懲規則如下:
S=特殊區域且紅燈,A=減速,R=-3;
S=普通區域,A=正常速度,R=-1;
S=終點,A=停止,R=10;
S=乘客上車或下車,A=停止,R=1。
進一步的,所述的步驟S3中,具體步驟為:
S31:設采用策略π在狀態s下通過動作a得到的價值和狀態動作價值函數為π(s,a),在狀態s下通過動作a轉移到狀態s′的轉移概率為通過動作a從狀態s轉移到狀態s′獲得的獎勵為設折扣值為γ,折扣值越大表示越考慮未來的價值累計,折扣值為零表示只看當前步驟的獎勵積累;建立狀態s下的狀態價值函數Vπ(s)為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢工程大學,未經武漢工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110478381.4/2.html,轉載請聲明來源鉆瓜專利網。





