[發明專利]一種基于深度強化學習的共享車位實時分配方法在審
| 申請號: | 202110814809.8 | 申請日: | 2021-07-19 |
| 公開(公告)號: | CN113554300A | 公開(公告)日: | 2021-10-26 |
| 發明(設計)人: | 苑明海;張晨希;周凱文;裴鳳雀;顧文斌 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06Q30/06;G06Q50/26;G06N20/00 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 許婉靜 |
| 地址: | 210000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 共享 車位 實時 分配 方法 | ||
1.一種基于深度強化學習的共享車位實時分配方法,其特征在于,
確定共享車位分配的強化學習目標;
收集一個社區共享停車場的靜態信息;
利用靜態信息構建基于馬爾可夫決策過程的共享車位實時分配模型;
利用深度強化學習算法訓練共享車位實時分配模型;
利用訓練完成的共享車位實時分配模型進行實際車位分配。
2.根據權利要求1所述一種基于深度強化學習的共享車位實時分配方法,其特征在于,所述共享車位分配的強化學習目標為最小化用戶停車后平均行走距離。
3.根據權利要求1所述一種基于深度強化學習的共享車位實時分配方法,其特征在于,所述社區共享停車場的靜態信息包括:共享車位的數量,各共享車位與各目標點的距離關系以及各車位的共享時間段。
4.根據權利要求1所述一種基于深度強化學習的共享車位實時分配方法,其特征在于,所述共享車位實時分配模型包括:共享車位實時環境,智能體和經驗池;其中,
所述共享車位實時環境根據智能體的動作,反饋給智能體獎懲值和狀態轉移信息;
所述智能體用于根據環境反饋的狀態選擇出最優的共享車位進行分配,并把動作作用于共享車位實時環境;其輸入的狀態包含于環境的狀態空間,其輸出的動作包含于環境的動作空間;
所述經驗池用于存儲智能體與共享車位實時環境交互得到的樣本,在訓練時,每次從經驗池中隨機抽取小批量的樣本進行學習。
5.根據權利要求4所述一種基于深度強化學習的共享車位實時分配方法,其特征在于,所述共享車位實時環境包括:狀態空間、動作空間、回報函數和狀態轉移模塊;其中,
所述狀態空間是環境中所有車位以及訂單狀態信息的集合,智能體依據狀態信息進行車位分配;
所述動作空間是智能體在當前狀態所有可能動作的集合;
所述回報函數是智能體在某一狀態下執行動作后收到的獎懲值,所述回報函數根據強化學習目標確定;
所述狀態轉移模塊根據前一時刻狀態和智能體當前執行的動作輸出下一時刻的狀態,其中涉及的狀態都包含于狀態空間。
6.根據權利要求5所述一種基于深度強化學習的共享車位實時分配方法,其特征在于,所述狀態空間包括:每個停車區域的剩余共享車位數量;當前訂單的信息,包括目標點和需求停車時間;當前時間點。
7.根據權利要求5所述一種基于深度強化學習的共享車位實時分配方法,其特征在于,所述動作空間包括:第一部分選擇某一個停車區域,對選擇停車區域的范圍進行過濾,過濾條件包括選擇的區域必須存在空閑車位且剩余共享時長能滿足停車需求;第二部分為從已選區域中選擇某種分配策略進行選取車位。
8.根據權利要求7所述一種基于深度強化學習的共享車位實時分配方法,其特征在于,所述分配策略包括:最短步行距離策略,選擇區域內距離目標點最近的車位;剩余共享時間最少策略,選擇區域內剩余共享時間最少的車位;隨機策略,隨機選擇區域內一個車位。
9.根據權利要求5所述的一種基于深度強化學習的共享車位實時分配方法,其特征在于,所述狀態轉移模塊的內部邏輯為:
輸入上一狀態信息和動作,根據動作中選取的區域和策略得到所選車位,分配車位給當前訂單;更新當前時間,計算各停車區域的車位數量,接收下一個停車訂單,將這三個信息作為下一狀態。
10.根據權利要求4所述的一種基于深度強化學習的共享車位實時分配方法,其特征在于,利用深度強化學習算法訓練共享車位實時分配模型的步驟進一步包括:
智能體根據當前狀態信息選到最優的停車區域和停車策略作為當前動作,并執行動作;共享車位實時環境的狀態轉移模塊根據上一狀態信息和當前動作輸出下一狀態,回報函數輸出獎懲值;將上述樣本存儲到經驗池中;智能體每隔指定時間,每次從經驗池中隨機抽取小批量的樣本進行訓練學習,如此不斷迭代,直到模型收斂。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110814809.8/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





