[發明專利]一種基于深度強化學習的共享自行車調度方法有效
| 申請號: | 202110744265.2 | 申請日: | 2021-06-30 |
| 公開(公告)號: | CN113326993B | 公開(公告)日: | 2023-06-09 |
| 發明(設計)人: | 肖峰;涂雯雯 | 申請(專利權)人: | 西南財經大學 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q10/0631;G06Q50/30;G06F30/15;G06F30/27;G06N3/04;G06N3/092;G06F111/04;G06F111/08;G06F119/12 |
| 代理公司: | 成都正德明志知識產權代理有限公司 51360 | 代理人: | 張小娟 |
| 地址: | 611130 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 共享 自行車 調度 方法 | ||
1.一種基于深度強化學習的共享自行車調度方法,其特征在于,包括以下步驟:
S1:劃分共享自行車的調度區域,得到調度區域單元,并確定共享自行車的運行環境變量;
S2:基于調度區域單元,根據共享自行車的運行環境變量,確定共享自行車的調度變量;
S3:根據共享自行車的調度變量,構建共享自行車的車輛調度優化模型;
S4:基于共享自行車的車輛調度優化模型,利用平均場理論構建共享自行車調度框架,并利用共享自行車調度框架完成共享自行車調度;
所述步驟S1中,劃分共享自行車的調度區域的具體方法為:將共享自行車的調度區域分割為若干個相同的等邊六角形,作為調度區域單元,并定義每個調度區域單元的全局標簽變量η5、水平方向標簽變量m和垂直方向標簽變量h,其滿足如下關系式:
其中,η5∈M′,M′={0,1,...,((M+1)2-1)},M表示調度區域單元的水平方向標簽變量或垂直方向標簽變量的最大值,M′表示調度區域單元的單元標簽集合;
所述步驟S1中,共享自行車的運行環境變量包括時間變量和城市固定倉庫位置集合變量;
所述時間變量包括時間步變量t、時間步變量集合T和時間步的最大值變量Tmax,其中,t∈T,T={0,1,...,Tmax};
所述城市固定倉庫位置集合變量包括固定倉庫位置集合ηw;
所述步驟S2中,共享自行車的調度變量包括策略執行狀態變量類、供需環境變量類、騎行出行變量類和調度策略變量類;
所述策略執行狀態變量類包括策略執行狀態變量tr,其中,tr∈{0,1};
在時間步t時,所述供需環境變量類包括調度區域單元的共享自行車出行需求變量策略執行狀態變量tr=0時調度區域單元的共享自行車供應量變量和策略執行狀態變量tr=1時調度區域單元的共享自行車供應量變量
在時間步t時,所述騎行出行變量類包括共享自行車出行的OD起點所在調度區域單元的全局標簽η2、共享自行車出行的OD訖點所在調度區域單元的全局標簽η3、共享自行車出行的OD標簽變量(η2,η3)、共享自行車出行的OD流量共享自行車從η2出發并到達η3的出行流量比率η5產生的共享自行車的實際出行量變量和η5的共享自行車的實際吸引量變量
在時間步t時,所述調度策略變量類包括調度車標簽集合I、調度車標簽變量i、調度車起始單元標簽變量調度車達到單元標簽變量調度車移動方向變量集合κ1、調度比率變量集合κ2、調度車從移動至相鄰的六個正六邊形的移動方向變量調度車的調度比率變量調度車的調度策略調度車的車倉最大容量調度車從ηti,0拾起并投放于的共享自行車輛數量變量調度車到達且屬于ηw時調度車投放于ηi,1的共享自行車輛數目占車倉內車輛數目的比率αwh、調度車實施調度策略之前預計以往調度車已實施調度策略情況下η5的供應量的預計累計增減量變量調度車實施調度策略后增加的收益和調度周期時間終止時城市固定倉庫儲存的共享自行車的總量Zwarehouse;
其中,I={0,1,...,N},N表示調度車標簽變量的最大值,i∈I,κ1={0,1,...,5},κ2={0,0.25,0.5,0.75},
所述步驟S3中,共享自行車的車輛調度優化模型具體為:
s.t.
在車輛調度優化模型中,將調度車實施調度策略后增加的收益最大化作為共享自行車的短期調度優化問題的目標函數其計算公式為其中,t表示時間步,Tmax表示時間步的最大值變量,i表示調度車標簽變量,N表示調度車標簽變量最大值,表示調度車的調度策略;
在時間步變量t策略執行狀態變量tr=0時,動作決策的計算公式為其中,表示調度車從移動至相鄰的六個正六邊形的移動方向變量,表示調度車的調度比率變量;
在時間步變量t策略執行狀態變量tr=0時,當調度區域單元的全局標簽變量η5和共享自行車出行的OD起點所在調度區域單元的全局標簽η2相同時,共享自行車出行的OD標簽變量(η2,η3)的共享自行車的路徑流量的計算公式為且其中,INT(·)表示向下取整數值,表示調度區域單元的共享自行車出行需求變量,表示初始給定供給量為t=0時調度區域單元內共享自行車供應量變量,表示策略執行狀態變量tr=1時調度區域單元內的共享自行車供應量變量,表示共享自行車從η2出發并到達η3的出行流量比率,M′表示調度區域單元的單元標簽集合;
將以共享自行車出行的OD起點所在調度區域單元的全局標簽η2為起點的出行流量比率的總和定值為1,其計算公式為其中,T表示時間步變量集合,η3表示共享自行車出行的OD訖點所在單元的全局標簽;
根據路徑流量在時間步t策略執行狀態tr=0時,當調度區域單元的全局標簽變量η5和共享自行車出行的OD起點所在單元的全局標簽η2相同時,將共享自行車路徑流量的總和作為調度區域單元的全局標簽變量η5的共享自行車的實際出行量其計算公式為
在時間步變量t策略執行狀態變量tr=0時,當調度區域單元的全局標簽變量η5和共享自行車出行的OD訖點所在單元的全局標簽η3相同時,將共享自行車路徑流量的總和作為調度區域單元的全局標簽變量η5的共享自行車實際吸引量其計算公式為
在時間步變量t策略執行狀態變量tr=0時,共享自行車供應量根據騎行者出行活動中的租借和停放的共享自行車輛數進行更新,其計算公式為其中,表示(t-1)時間步時已實施調度策略后策略執行狀態變量tr=1的共享自行車供應量變量,表示t時間步時η5的共享自行車實際出行量變量,表示t時間步η5的共享自行車實際吸引量變量;
在時間步變量t策略執行狀態變量tr=0時,調度車在(t+1)時間步將要到達的單元標簽變量的計算公式為其中,m表示調度區域單元的水平方向標簽變量,h表示調度區域單元的垂直方向標簽變量,表示調度車(t+1)時間步的起始單元標簽變量,表示調度車從ηi,0移動至相鄰的六個正六邊形的移動方向變量;
在時間步變量t策略執行狀態變量tr=0時,η5的供應量的預計累計增減量的計算公式為其中,表示第(i-1)輛調度車預計從η5拾起共享自行車輛數,αwh表示調度車到達ηi,1且ηi,1屬于ηw時調度車投放于ηi,1的共享自行車輛數目占車倉內車輛數目的比率,ηw表示固定倉庫位置集合;
在時間步t策略執行狀態變量tr=0時,調度車從ηi,0將輛共享自行車拾起并放入調度車的車倉內,并將輛共享自行車全部投放在ηi,1中,調度車拾起的車輛數的計算公式為且其中,min(·)表示取最小值,表示策略執行狀態變量tr=0時的供給量,ηi,0表示調度車的起始單元標簽變量,表示調度車的車倉最大容量,表示調度車的調度比率變量;
在時間步t策略執行狀態變量tr=1時,根據調度車拾起的車輛數執行調度策略,并更新η5,得到實施調度策略后η5的共享自行車供應量變量其計算公式為
城市固定倉庫儲存的共享自行車的總量Zwarehouse的計算方式為
所述步驟S4包括以下子步驟:
S41:基于共享自行車的車輛調度優化模型,確定共享自行車調度框架的要素;
S42:利用one-hot編碼方式,確定平均動作;
S43:定義共享自行車調度框架的經驗池變量和訓練回合相關變量;
S44:基于平均場理論,根據共享自行車調度框架的要素、平均動作、經驗池變量和訓練回合相關變量,構建共享自行車調度框架。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南財經大學,未經西南財經大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110744265.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種離合裝置
- 下一篇:一種耳機控制方法、電子設備及耳機
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





