[發明專利]一種基于Qlearning的單點信號配時方案選擇方法有效

申請號：	202110856591.2	申請日：	2021-07-28
公開（公告）號：	CN113506450B	公開（公告）日：	2022-05-17
發明（設計）人：	朱海峰;郭敏;溫熙華;陳鵬飛	申請（專利權）人：	浙江海康智聯科技有限公司
主分類號：	G08G1/07	分類號：	G08G1/07;G08G1/08;G08G1/01;G06K9/62
代理公司：	南昌合達信知識產權代理事務所(普通合伙) 36142	代理人：	李良
地址：	314500 浙江省嘉興市桐鄉市***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于 qlearning 單點信號時方選擇方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于Qlearning的單點信號配時方案選擇方法，其特征在于包括以下步驟：

S1，狀態空間定義；

將狀態空間定義為S＝(C,F)，其中，C代表狀態集，F代表狀態開關；

對狀態集進行簡化設計，選取某一時段內運行的固定配時方案為基準方案Pl，并向它的上下兩個方向各拓展l-1套方案，l的取值根據實際應用情況選擇，狀態集C共設置2l-1套方案,C＝(P1,P2,…Pl,…,P(2l-1))，其中，Pl為原始基準方案，P1為向下拓展方案1，P(l-1)為向下拓展方案l-1，P(2l-1)為向上拓展方案2l-1；

設置開關量F，區分交通狀態的異常與否：

式中，y為交叉口的關鍵流量比，交叉口為j相位，q_i為相位i的關鍵車流的流量，s_i為車道的飽和流量，y_now為當前關鍵流量比，y_last為依據歷史數據分析得到的該時段公允關鍵流量比，與y_last同比增大超過e可判定為異常狀態，e可根據實際交叉口情況進行設置；

S2，動作空間定義；

一個完整的動作空間包括交叉口在一個時間步內所有可能的信號配時方案，動作空間定義為：A＝(a1,a2,…am,…,aw)；

其中，am為動作空間中的第m套信號配時方案；各方案中的周期是不一樣的，各方案中的相位時長可根據各相位關鍵車流的流量比進行分配調節；

S3，回報函數；

回報函數依據延誤時間計算得到，延誤時間通過仿真軟件直接獲得或實際應用中計算得到；

首先，通過聚類算法分析得到交叉口該時段內不同類別延誤變化范圍的上限值d；

其次，定義獎懲函數為：

式中：d_t0為動作執行前的延誤，d_tk為動作執行后的延誤；

設置連續相同動作標志b，若連續兩次相同的動作，則b＝2；若連續三次相同的動作，則b＝3；依此類推，每增加一次連續相同動作，b值加1；連續動作被中斷，則b＝1；

針對不同的b、r_t(s,a)、dif調整反饋r_t(s,a)，規則如下：

dif＝d_tk-d_t0；

當b＝2且r_t(s,a)＝-1時，說明被選中的方案已經是連續第二次被選中，動作選擇策略采取貪婪算法,可知被選中的方案曾是一套相對優秀的方案；當延誤升高幅度不大，即difk時，修正r_t(s,a)＝0；當延誤升高幅度較大，即dif≥k時，保持r_t(s,a)＝-1，k的值可依據經驗進行設置；

當b2且r_t(s,a)＝-1時，說明被選中的方案已經是連續三次以上被選中，可知被選中的方案已經是比較優秀的方案；當延誤升高幅度不大，即difk時，保持r_t(s,a)＝-1；當延誤升高幅度較大，即dif≥k時，修正r_t(s,a)＝-b+1，加強環境變化的反饋值；

r_t(s,a)＝2,當r_t(s,a)＝1且b＝2；

當r_t(s,a)＝2，b＝2時，重新設置b＝1,防止緊接著出現相同動作時，隨著b的升高，出現修正r_t(s,a)＝-1，甚至是更小的負值，出現強烈振蕩、不收斂的情況；

S4，Q值表的更新；

建立兩張Q值表，一張用于記錄常規交通，另一張用于記錄異常交通，其他參數統一設置,Q值的更新選取Bellman最優方程：

Q_t+1(s_t,a_t)＝(1-α_t)Q_t(s_t,a_t)+α_t(r_t+1+γmaxQ_t(s_t+1,a_t+1))；

其中，α為學習速率，γ為折扣因子，α、γ根據具體交叉口特性進行確定；

動作選擇策略為ε-greedy探索策略，依據Qlearning的規則，Q值表為(2l-1)×w的矩陣，根據Bellman方程，在迭代中更新各狀態下不同行為的Q值；

ε-greedy探索策略具體通過設置自增加的ε值與隨機生成數r∈[0，1]比較大小來進行學習動作的選取，選取規則：

當rε時，選取當前狀態下Q值最大的動作，

當r＝ε時，在當前狀態下隨機選取一個動作執行；

ε∈[ε₁,ε₂]，ε自增加規則：

當迭代次數n＝N₁時，ε＝ε₁+(ε₂-ε₁)/N₁*n；當nN₁時，ε＝ε₂。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于浙江海康智聯科技有限公司，未經浙江海康智聯科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110856591.2/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種帶扭力補償的大彎矩變位機
下一篇：一種負載希夫堿金屬配合物抗菌微球的制備方法

同類專利

專利分類

G 物理

G08 信號裝置
G08G 交通控制系統
G08G1-00 道路車輛的交通控制系統
G08G1-005 .包括行人導引指示器的
G08G1-01 .檢測要統計或要控制的交通運動
G08G1-065 .計算一段道路或停車場上的車輛數的，即比較進出車輛數
G08G1-07 .交通信號控制
G08G1-09 .給出可變交通指令的裝置

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】