[發明專利]停車場停車情況預測方法、調度方法和系統有效
| 申請號: | 201910134880.4 | 申請日: | 2019-02-24 |
| 公開(公告)號: | CN109741626B | 公開(公告)日: | 2023-09-29 |
| 發明(設計)人: | 傅啟明;施政延;陳建平;陸悠;鐘珊;羅恒 | 申請(專利權)人: | 蘇州科技大學 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G08G1/14;G06Q50/30;G06N20/00 |
| 代理公司: | 北京科家知識產權代理事務所(普通合伙) 11427 | 代理人: | 陳娟 |
| 地址: | 215000 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 停車場 停車 情況 預測 方法 調度 系統 | ||
1.一種停車場的車位停車情況預測方法,其特征在于,包括:
獲取停車場的各個車位的實際的停車情況數據,
利用所述實際的停車情況數據,通過Q-learning算法獲得預測策略,利用預測策略預測停車情況數據,
所述利用所述實際的停車情況數據,通過Q-learning算法獲得預測策略,利用預測策略預測停車情況數據包括:
將停車情況問題建模為一個馬爾可夫決策過程,并定義其中的狀態、動作、狀態轉移函數以及立即獎賞函數,具體包括:
狀態,用s表示,設G={1,…m}為所有停車場的集合,m為停車場的數量,設V={1,2,3,…,k}是停車場的車位的集合,其中k是停車場的車位的總數,第i個停車場的第j個車位的停車情況數據為vi,j,其中i∈G,j∈V,則狀態表示為:
s=(v1,1,v1,2,…,v2,1,…,vm,k);
動作,用a表示,動作可以表示為預測下一時刻各個停車場的各個車位的停車情況數據,設第i個公共停車場的第j個車位的停車情況數據為ri,j,
其中i∈G,j∈V,ri,j∈{0,1},其中,0表示車位空閑,1表示車位被占用,則動作表示為:
a=(r1,1,r1,2,r1,3,…,rm,k);
狀態轉移函數,用f表示,設當前停車場調度狀態s的動作為:a’=(q1,1,q1,2,q1,3,…,qm,k),q∈{-1,0,1},其中,-1表示車位車輛離開,0表示車位無變動,1表示空車位有車停入,則狀態轉移函數表示為:
f:st+1←st+(q1,1,q1,2,q1,3,…,qm,k);
立即獎賞函數,用r表示,設下一個時刻的預測的停車場的車輛停放狀況集合為Et+1,該時刻實際的車輛停放狀況集合為et+1,兩者之間的差值為:立即獎賞函數表示為:r=-E;
建立值函數回報模型,具體包括:
建立值函數回報模型,設R(s,a)表示在狀態s下采用動作a的回報值;值函數Q(s,a)是關于R(s,a)的期望,則Q(s,a)=E[R(s,a)];
所述利用Q-learning算法獲得預測策略包括:
每收集一次停車場的各個車位的實際的停車情況數據記為一次情節,每次狀態轉移即預測一次下一時刻的停車情況數據記為一個時間步t,重復以下步驟直至狀態s收斂:
采取動作at,獲得r和下一個狀態st+1,通過ε-greedy策略從Q根據st+1選擇下一個動作at+1,具體應用的公式如下:
Q(st,at)←Q(st,at)+α[Rt+1+γmax?Q(st+1,at+1)-Q(st,at)],
st←st+1,
at←at+1,
其中,γ為折扣因子,α為學習速率;
利用預測策略預測停車情況數據;
采用TD?Learning算法對所述值函數進行更新,具體包括:
使用TD?Learning的思想來進行值函數的更新,TD?Learning時間差分方法的目標為Rt+1+γV(st+1),若V(st+1)采用真實值,則TD?Learning時間差分方法估計也是無偏估計,然而在試驗中,V(St+1)用的也是估計值,因此TD?Learning時間差分方法屬于有偏估計,更新方法應用以下公式:
V(st)←V(st)+α(Rt+1+γV(st+1)-V(st)),
其中,α為TD?Learning步長,γ為TD?Learning報酬貼現率,
在所述利用預測策略預測停車情況數據之前,先使用DQN深度強化學習算法,對通過Q-learning算法得到的預測策略進行優化,具體包括:
將從Q-Table中的更新問題變成一個函數擬合問題,相近的狀態得到相近的輸出動作,通過更新參數θ使Q函數逼近最優Q值,如下式:
Q(s,a;θ)≈Q′(s,a),
Q-Learning的更新公式為:
Q(st,at)←Q(st,at)+α[Rt+1+γmax?Q(st+1,a)-Q(st,at)],
而DQN的Loss?Function為:
L(θ)=E[(TargetQ-Q(st,a;θ))2],
其中θ是網絡參數,目標為:
TargetQ=r+γmaxQa’(st+1,at+1;θ),
接下來,通過數學求導的方法得到L(θ)關于θ的梯度,使用SGD梯度下降方法更新網絡參數θ。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州科技大學,未經蘇州科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910134880.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:按鍵部件和電子設備
- 下一篇:控制系統升級方法及控制系統
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





