[發明專利]一種基于深度強化學習的多乘客動態車輛路徑優化方法有效
| 申請號: | 202110478381.4 | 申請日: | 2021-04-30 |
| 公開(公告)號: | CN113189998B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 劉瑋;甘陳峰;王寧 | 申請(專利權)人: | 武漢工程大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02;G06Q10/047;G06Q50/26;G06N3/09;G06N3/096 |
| 代理公司: | 湖北武漢永嘉專利代理有限公司 42102 | 代理人: | 唐萬榮 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 乘客 動態 車輛 路徑 優化 方法 | ||
1.一種基于深度強化學習的多乘客動態車輛路徑優化方法,其特征在于:包括以下步驟:
S1:構建車輛運行的狀態動作空間;
S2:以車輛作為強化學習的主體,根據不同情況設定不同的獎勵值和懲罰值;
具體步驟為:
設參與學習的車輛的狀態為S,車輛在狀態S下的動作為A,對車輛的動作的獎勵或懲罰的值為R,車輛的狀態發生改變的狀態轉移概率為P;定義四元組A,S,R,P和獎懲規則如下:
S=特殊區域且紅燈,A=減速,R=-3;
S=普通區域,A=正常速度,R=-1;
S=終點,A=停止,R=10;
S=乘客上車或下車,A=停止,R=1;
S3:搭建具有經驗回放機制的DQN算法,建立DQN深度神經網絡,并訓練車輛讓實際Q值趨近目標Q值;
具體步驟為:
S31:設采用策略π在狀態s下通過動作a得到的價值和狀態動作價值函數為π(s,a),在狀態s下通過動作a轉移到狀態s′的轉移概率為通過動作a從狀態s轉移到狀態s′獲得的獎勵為設折扣值為γ,折扣值越大表示越考慮未來的價值累計,折扣值為零表示只看當前步驟的獎勵積累;建立狀態s下的狀態價值函數Vπ(s)為:
設在狀態s′下采取動作a′的獎勵為Qπ(s′,a′),則狀態s下累計的狀態動作價值函數Qπ(s)為:
用于評定車輛交互時狀態的價值和動作的價值;
S32:在高維連續的狀態動作空間中,通過相近的狀態擬合相近的輸出動作,得到每個狀態動作對的Q值:
Q(s,a;ω)≈Q′(s,a);
S33:將Q-Learning計算得到的目標Q值作為標簽,并訓練車輛讓實際Q值趨近目標Q值;
S4:進行監督學習,通過確定損失函數、梯度獲得最優的動態車輛路徑。
2.根據權利要求1所述的一種基于深度強化學習的多乘客動態車輛路徑優化方法,其特征在于:所述的步驟S1中,具體步驟為:
設車輛的通行范圍在道路的起點和終點之間;
在車輛的通行范圍內設有車站、特殊區域、信號燈;
車站為行人的上下車地點,車站帶有停車屬性;
行人為參與交通的實體,分布在車站的附近,行人分別帶有不同的通行計劃屬性;特殊區域分布在道路的兩旁,車輛在經過特殊區域時進行減速操作;
信號燈用于控制交通。
3.根據權利要求1所述的一種基于深度強化學習的多乘客動態車輛路徑優化方法,其特征在于:所述的步驟S4中,具體步驟為:
S41:采用Q-Learning確定損失函數為:
S42:設DQN算法收斂,使車輛在每個狀態下選取到最好的動作的策略為π:
π(s)=arg?maxa∈AQ(s,a);
S43:使用包括隨機梯度下降的方法更新參數,從而優化函數直至獲得穩定的全局獎勵,得到車輛的最優動作序列和最優路線。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢工程大學,未經武漢工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110478381.4/1.html,轉載請聲明來源鉆瓜專利網。





