[發明專利]一種基于深度強化學習的共享自行車調度方法有效
| 申請號: | 202110744265.2 | 申請日: | 2021-06-30 |
| 公開(公告)號: | CN113326993B | 公開(公告)日: | 2023-06-09 |
| 發明(設計)人: | 肖峰;涂雯雯 | 申請(專利權)人: | 西南財經大學 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q10/0631;G06Q50/30;G06F30/15;G06F30/27;G06N3/04;G06N3/092;G06F111/04;G06F111/08;G06F119/12 |
| 代理公司: | 成都正德明志知識產權代理有限公司 51360 | 代理人: | 張小娟 |
| 地址: | 611130 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 共享 自行車 調度 方法 | ||
本發明公開了一種基于深度強化學習的共享自行車調度方法,包括以下步驟:S1:劃分共享自行車的調度區域,得到調度區域單元,并確定共享自行車的運行環境變量;S2:確定共享自行車的調度變量;S3:構建共享自行車的車輛調度優化模型;S4:基于共享自行車的車輛調度優化模型,利用平均場理論構建共享自行車調度框架,并利用共享自行車調度框架完成共享自行車調度。本發明提出的基于強化學習的共享自行車調度優化方法有利于智能地解決隨機和復雜的動態環境下,大規模路網的共享自行車短期和長期調度優化問題。其考慮環境的供需變化和未來時間中調度決策與環境的交互影響,且不需要提前預測需求或進行人工數據處理,不受到需求預測計算效率和準確性的影響。
技術領域
本發明屬于車輛調度技術領域,具體涉及一種基于深度強化學習的共享自行車調度方法。
背景技術
在以往研究中,通常解決自行車調度優化問題的方式為,將調度時間劃分為不同的時間段,再在每個基于劃分的時間段內獨立搜索最佳的調度策略。然而,上一個時間段的調度策略將影響下一個以及未來時間段的供需環境。對于基于時間段的孤立策略優化方法,其未考慮未來時間段的供需情況和所實施的策略的造成的影響。則此方法下,此時間段的最佳策略不一定會促使未來時間內產生較高的實際出行量,甚至會造成未來實際出行量較低的情況。因此,采用基于時間段的孤立策略優化方法,并不一定會獲得全調度時間的最佳全局策略。
發明內容
本發明的目的是為了解決長期調度過程、動態環境和大規模網絡的共享自行車調度問題,提出了一種基于深度強化學習的共享自行車調度方法。
本發明的技術方案是:一種基于深度強化學習的共享自行車調度方法包括以下步驟:
S1:劃分共享自行車的調度區域,得到調度區域單元,并確定共享自行車的運行環境變量;
S2:基于調度區域單元,根據共享自行車的運行環境變量,確定共享自行車的調度變量;
S3:根據共享自行車的調度變量,構建共享自行車的車輛調度優化模型;
S4:基于共享自行車的車輛調度優化模型,利用平均場理論構建共享自行車調度框架,并利用共享自行車調度框架完成共享自行車調度。
進一步地,步驟S1中,劃分共享自行車的調度區域的具體方法為:將共享自行車的調度區域分割為若干個等邊六角形,作為調度區域單元,并定義每個調度區域單元的全局標簽變量η5、水平方向標簽變量m和垂直方向標簽變量h,其滿足如下關系式:
其中,η5∈M′,M′={0,1,...,((M+1)2-1)},M表示調度區域單元的水平方向標簽變量或垂直方向標簽變量的最大值,M′表示調度區域單元的單元標簽集合;
步驟S1中,共享自行車的運行環境變量包括時間變量和城市固定倉庫位置集合變量;
時間變量包括時間步變量t、時間步變量集合T和時間步的最大值變量Tmax,其中,t∈T,T={0,1,...,Tmax};
城市固定倉庫位置集合變量包括固定倉庫位置集合ηw。
進一步地,步驟S2中,共享自行車的調度變量包括策略執行狀態變量類、供需環境變量類、騎行出行變量類和調度策略變量類;
策略執行狀態變量類包括策略執行狀態變量tr,其中,tr∈{0,1};
在時間步t時,供需環境變量類包括調度區域單元的共享自行車出行需求變量策略執行狀態變量tr=0時調度區域單元的共享自行車供應量變量和策略執行狀態變量tr=1時調度區域單元的共享自行車供應量變量
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南財經大學,未經西南財經大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110744265.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種離合裝置
- 下一篇:一種耳機控制方法、電子設備及耳機
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





