[發明專利]一種基于3DQN_PSER算法的單交叉口信號控制方法有效

申請號：	202010064330.2	申請日：	2020-01-20
公開（公告）號：	CN111243299B	公開（公告）日：	2020-12-15
發明（設計）人：	劉志;曹詩鵬;沈陽;楊曦;沈國江	申請（專利權）人：	浙江工業大學
主分類號：	G08G1/07	分類號：	G08G1/07;G08G1/08;G08G1/065
代理公司：	杭州之江專利事務所(普通合伙) 33216	代理人：	張慧英
地址：	310014 浙***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于 dqn_pser 算法交叉口信號控制方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于3DQN_PSER算法的單交叉口信號控制方法，其特征在于，包括如下步驟：

(1)對城市道路交叉口各進口道卡口電警的過車數據進行統計；

(2)對步驟(1)采集到的流量數據進行預處理，根據車牌號匹配的方法消除重復數據，并對缺失數據，按照短期內流量的時序相關性，采取前后流量數據的均值進行修復；

(3)基于步驟(2)得到的各車道流量數據，生成OD矩陣，配置對應的路由數據文件，并根據實際交叉口拓撲結構生成路網文件，基于需要探測的車輛運行狀態配置車道區域探測器；

(4)通過離散交通狀態編碼技術設計路口的車輛動態流信息，組裝成三維張量輸入，并根據不同流向當前的信號狀態，設計一維數組表示作為另一輸入；

(5)將相位方案庫離散化，作為動作集合A，引入動作獎懲系數δ來滿足相位最小最大綠燈時間約束，對信號燈狀態轉變進行設計以實現相位過渡；所述步驟(5)中，列舉出所有無沖突情況下的相位方案庫，信號智能體在每個決策點都會從動作方案集合A＝{0，1，2，3，4，5，6，7}中選擇一種相位方案；如果選擇的動作和當前相位方案相同，則執行當前綠燈相位τ_g秒，否則，需要先執行過渡相位τ_y秒，其中過渡相位指黃燈相位；根據在決策點的選擇會執行對應的相位方案；其中，根據相位最小綠燈時間和最大綠燈時間，設計了動作獎懲系數，并將其引入最終Q值的計算；動作獎懲系數如下所示：

其中，其中，G_min和G_max分別表示最小綠燈時間和最大綠燈時間，Φ為獎懲尺度，取值需要結合獎勵分布情況來設計；p₁和p₂表示相位方案中兩流向的綠燈時間，且本式前提為p₁＜p₂；

在相位方案切換的過程中，會涉及信號燈燈色狀態的轉移，若當前信號燈執行方案一，由流向2和流向5組成，下一決策點選擇的動作仍是方案一，則會繼續執行當前方案τ_g秒；若下一決策點執行的動作是方案二，則在切換到方案二相位之前，會先執行對應的過渡相位τ_y秒，根據前后決策點的相位方案不同，執行的過渡相位也有所不同，若下一決策點執行方案五動作，則會保持流向2綠燈，而流向5變成黃燈過渡相位；

(6)對排隊長度r_queue、累計等待時間r_waitTime、剎車次數r_halting和相位是否切換r_phase四個指標進行系數加權，作為信號智能體的獎勵函數；具體步驟如下：

(6.1)各車道在該決策點的排隊長度之和r_queue；

(6.2)相鄰決策點之間的累計等待時間之差r_waitTime，若當前處于決策點k+1，此時的累計等待時間r_waitTime＝W_k+1-W_k，如果r_waitTime＜0，表明這段時間路網比之前暢通，反之則表明路網擁堵加重，此外等待時間是根據車輛的速度是否低于0.1m/s來判定的；

(6.3)各車道在該決策點的剎車數量之和r_halting；

(6.4)當前決策點選擇的動作是否會導致相位切換r_phase，如果切換的話r_phase＝1,沒有切換的話r_phase＝0；

(6.5)綜合以上指標，并結合相應的權重系數k₁，k₂，k₃，k₄，加權得到最終的獎勵：

r＝k₁*r_queue+k₂*r_waitTime+k₃*r_halting+k₄*r_phase；

(7)基于以線為單位來調整一定范圍內樣本數據優先級的優先序列經驗重放的方法，并結合Double DQN和Dueling DQN來優化深度Q學習算法，基于Adam優化器，并采用均方差作為損失函數，反復更新網絡模型參數，尋找得到最優的配時方案；所述步驟(7)中，利用Double DQN和Dueling DQN技術來調整Q值的選擇以及局部網絡結構，經過以上調整后，Q值的更新函數如下：

式中，Q(s,a；θ,α,β,δ)＝Q(s,a；θ,α,β)+δ

其中，θ和θ^-分別表示主網絡和目標網絡參數，α和β表示經Dueling調整后，全連接層兩支流的參數，s′表示下一個狀態，γ表示折扣系數，指的是即時獎勵和累計未來獎勵之間的衰減情況，δ為動作獎懲系數；考慮到短期內交通流和信號方案相互依賴，以及數據自身特性，采用優先序列經驗重放的方法來更新序列樣本的優先級，即以“線”為單位來調整一定范圍內的樣本優先級，并使用均方差作為損失函數：

其中，B表示取樣個數，w_j為樣本j重要性采樣權重系數；

通過梯度下降法將誤差反向傳播，并更新一輪網絡模型參數，當獎勵值收斂到穩定值，便得到最佳的信號配時方案；

所述更新規則如下：

p_t-1＝max(ρ¹p_t,p_t-1)

p_t-2＝max(ρ²p_t,p_t-2)

p_t-3＝max(ρ³p_t,p_t-3)

...

p_t-(W-1)＝max(ρ^(W-1)p_t,p_t-(W-1))

其中，ρ為衰減系數，用來相鄰決策點之間優先級影響程度；p_t是索引t的樣本優先級，指估計Q值和實際Q值之間差的絕對值，稱為TD-error，其計算公式如下：

p_t＝|Y_t^3DQN-Q(s,a；θ,α,β,δ)|+o

其中，o是一個常數，為了避免優先級為零，設為0.0001。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。