[發明專利]一種基于強化學習模型的共享汽車平衡方法在審
| 申請號: | 202011317789.5 | 申請日: | 2020-11-23 |
| 公開(公告)號: | CN112508356A | 公開(公告)日: | 2021-03-16 |
| 發明(設計)人: | 顧釗銓;方濱興;賈焰;任昌偉;王樂;仇晶;韓偉紅;李樹棟 | 申請(專利權)人: | 廣州大學 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06Q30/02;G06Q30/06;G06N3/04;G06N3/08 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 雷芬芬;黃磊 |
| 地址: | 510006 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 模型 共享 汽車 平衡 方法 | ||
1.一種基于強化學習模型的共享汽車平衡方法,其特征在于,包括:
S1,接收用戶的待用車請求或者待還車請求;
S2,將待用車請求或者待還車請求輸入預先建立好的強化學習模型,強化學習模型輸出各個站點的用車獎勵金或者還車獎勵金;
S3,用戶遍歷包含他自身的預設網格區域,在提供獎勵金最多的站點進行取車或者還車。
2.根據權利要求1所述的基于強化學習模型的共享汽車平衡方法,其特征在于,建立強化學習模型包括:
將共享汽車的租賃區域劃分為網格狀,其中每一個網格代表一個共享汽車的租賃點;其中每個網格中有固定的共享汽車停放數目,并且將s作為該站點的剩余車輛的數目;
建立馬爾可夫決策過程,包含四元組(S,A,R,γ),其中S表示每個時刻的各個站點的車輛信息集合,由{s1,s2,...,sn}組成,si表示每個站點當前的車輛信息,具體表示為每一個車站的剩余車輛數量,A為各個站點為用戶提供的取車獎勵金和還車獎勵金,由At=(pt1t,pt2t,...,ptnt,ps1t,ps2t,...,psnt)表示,其中ptit表示t時間段第i個站點取車的獎勵金額,psit表示t時間段內第i個站點的停車獎勵金額;R表示獎賞值,γ表示未來的reward所占的權重;
采用探索序列來學習獎勵金的發放方式。
3.根據權利要求2所述的基于強化學習模型的共享汽車平衡方法,其特征在于,采用探索序列來學習獎勵金的發放方式包括:
將一天劃分為24個時間間隔,并在每天的0點對整個區域各共享汽車站點進行車輛數量的初始化,用S0來表示初始時刻的狀態;在開始當前時間間隔時,通過強化學習算法計算得到每個站點的取車獎勵和還車獎勵A0;當產生一條用戶的用車請求時,通過遍歷包含他自身的預設網格區域中,在提供獎勵金最多的站點進行取車;當產生一條用戶還車請求時,用戶會遍歷他目標還車區域的預設區域的提供獎勵金最高的站點進行取車;采取一段時間內的用戶用車請求數據進行模型訓練;其中每一條用戶的用戶用車請求包括用戶id,時間,起始位置,終點位置,預計駕車時間,花費金額;通過計算一段時間內用戶的用車情況,得到一段時間內用戶訂單的服務率R0,以及下一個時刻的車輛分布狀態的表示S1,并重復以上步驟得到A1,R1,S2,A2,R2。
4.根據權利要求3所述的基于強化學習模型的共享汽車平衡方法,其特征在于,建立強化學習模型之后還包括:訓練強化學習模型。
5.根據權利要求4所述的基于強化學習模型的共享汽車平衡方法,其特征在于,訓練強化學習模型包括采用DDPG算法來訓練深度強化學習模型,具體為:
S21,建立actor網絡和critic網絡,并建立actor網絡和critic網絡分別對應的副本target critic網絡和target actor網絡;隨機初始化critic網絡Q(s,a|θQ),和actor網絡μ(s|θμ);初始化target critic網絡Q′、target actor網絡μ′,target critic網絡權重θQ′和target actor網絡權重θμ′,并將critic網絡和actor網絡的初始參數θQ和θμ′的值分別賦予target critic網絡和target actor網絡的參數;
S22,初始化經驗回放池B;
S23,對于每個情節進行如下循環操作;
S24,初始化原始的車輛分布狀態S0和一個隨機探測噪聲用于動作空間的探索;
S25,對于每個時間間隔(timestamp),進行如下循環操作:
S251,利用當前的策略μ和探測噪聲根據當前車輛分布狀態來決定每個站點的取車獎勵金和還車獎勵金:
S252,根據設置的獎勵金,得到該時間段結束后對應的獎賞rt和下一個狀態st+1;
S253,將轉移狀態向量(st,at,rt,st+1)放入經驗回放池中;
S254,在經驗回放池中選擇大小為N批量的訓練樣本(si,ai,ri,si+1);
S255,計算當前狀態-動作對的Q值:Q(si,ai|θQ);
S256,通過actor網絡獲得下一個狀態的動作:ai+1=μ′(si+1|θμ′);
S257,計算下一個狀態-動作對的Q值:Q′(si+1,ai+1|θQ′);
S258,通過時序查分來更新critic網絡,L=∑(yi-Q(si,ai))2/N,其中yi=ri+γQ′(si+1,ai+1);
S258,通過策略梯度來更新actor網絡參數:
S2510,更新target網絡的參數:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
通過上述強化學習DDPG算法,訓練學習得到一個自適應的獎勵金計算模型,即強化學習模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州大學,未經廣州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011317789.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種旋轉式酒槽制造裝置
- 下一篇:一種自動調節給棉速度的給棉裝置
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





