[發明專利]一種基于強化學習的公交車輛排班方法在審
| 申請號: | 202210431112.7 | 申請日: | 2022-04-22 |
| 公開(公告)號: | CN114819617A | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 左興權;劉英卓;黃海;艾冠群 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06Q50/30 |
| 代理公司: | 北京永創新實專利事務所 11121 | 代理人: | 易卜 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 公交 車輛 排班 方法 | ||
1.一種基于強化學習的公交車輛排班方法,其特征在于:
(1)對于給定的公交線路的發車時刻表,利用強化學習進行車輛排班;將公交車輛排班問題建模為馬爾可夫決策過程,發車時刻表中每個時刻點作為決策點;對于每個時刻點,由智能體根據控制點中車輛的信息,選取一個車輛在該時刻點從該控制點發出,從而覆蓋該時刻點;利用智能體對發車時刻表中的所有時刻點進行逐點決策,使得時刻表中每個時刻都有車輛發出,最終形成車輛排班方案;
(2)車輛排班問題的馬爾可夫決策過程模型包括狀態、動作和獎勵;
狀態為智能體的輸入,包括:當前時刻點所有可選車輛的信息;動作為智能體的輸出,即:選取控制點中的某一車輛在該時刻點發出;獎勵包括:車輛數目和車輛等待時間;
(3)構建公交車輛排班仿真環境,智能體通過與仿真環境的交互,借助強化學習算法來獲取最優策略。
2.根據權利要求1所述的一種基于強化學習的公交車輛排班方法,其特征在于,所述排班仿真環境為車輛運營過程的模擬;
仿真環境中包含運營時間內任一時刻的車輛行駛信息,具體包括車輛位置、行駛方向、運行時間、工作時間和休息時間,這些信息作為智能體的輸入,智能體根據輸入產生輸出的動作,即選擇發出的車輛,動作作用于仿真環境來更新車輛行駛信息;通過智能體與環境的交互,實現車輛運營過程的模擬。
3.根據權利要求1所述的一種基于強化學習的公交車輛排班方法,其特征在于,所述馬爾可夫決策過程,其特征在于:
1)狀態:對于當前控制點內每個可供選擇的車輛,為其構建一個車輛表示向量,該向量包含該車輛與排班相關的行駛信息;可供選擇的車輛指當前時刻停靠在該控制點內的可發車的車輛以及還未發出的車輛;由所有可供選擇車輛的表示向量構成的矩陣,作為狀態;
2)動作:對于每個決策點,智能體的動作為選取一個可供選擇的車輛從該時刻表中發出;動作空間中包括所有的可供選擇的車輛,其中還未發出的車輛表示為一輛車;
3)獎勵:包括主線獎勵和支線獎勵;根據車輛排班問題的優化目標來構造獎勵函數,獎勵需要考慮的因素包括:車輛數目,執行奇數行程的車輛數和時刻點覆蓋情況。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210431112.7/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





