[發明專利]一種基于3DQN_PSER算法的單交叉口信號控制方法有效
| 申請號: | 202010064330.2 | 申請日: | 2020-01-20 |
| 公開(公告)號: | CN111243299B | 公開(公告)日: | 2020-12-15 |
| 發明(設計)人: | 劉志;曹詩鵬;沈陽;楊曦;沈國江 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G08G1/07 | 分類號: | G08G1/07;G08G1/08;G08G1/065 |
| 代理公司: | 杭州之江專利事務所(普通合伙) 33216 | 代理人: | 張慧英 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 dqn_pser 算法 交叉口 信號 控制 方法 | ||
1.一種基于3DQN_PSER算法的單交叉口信號控制方法,其特征在于,包括如下步驟:
(1)對城市道路交叉口各進口道卡口電警的過車數據進行統計;
(2)對步驟(1)采集到的流量數據進行預處理,根據車牌號匹配的方法消除重復數據,并對缺失數據,按照短期內流量的時序相關性,采取前后流量數據的均值進行修復;
(3)基于步驟(2)得到的各車道流量數據,生成OD矩陣,配置對應的路由數據文件,并根據實際交叉口拓撲結構生成路網文件,基于需要探測的車輛運行狀態配置車道區域探測器;
(4)通過離散交通狀態編碼技術設計路口的車輛動態流信息,組裝成三維張量輸入,并根據不同流向當前的信號狀態,設計一維數組表示作為另一輸入;
(5)將相位方案庫離散化,作為動作集合A,引入動作獎懲系數δ來滿足相位最小最大綠燈時間約束,對信號燈狀態轉變進行設計以實現相位過渡;所述步驟(5)中,列舉出所有無沖突情況下的相位方案庫,信號智能體在每個決策點都會從動作方案集合A={0,1,2,3,4,5,6,7}中選擇一種相位方案;如果選擇的動作和當前相位方案相同,則執行當前綠燈相位τg秒,否則,需要先執行過渡相位τy秒,其中過渡相位指黃燈相位;根據在決策點的選擇會執行對應的相位方案;其中,根據相位最小綠燈時間和最大綠燈時間,設計了動作獎懲系數,并將其引入最終Q值的計算;動作獎懲系數如下所示:
其中,其中,Gmin和Gmax分別表示最小綠燈時間和最大綠燈時間,Φ為獎懲尺度,取值需要結合獎勵分布情況來設計;p1和p2表示相位方案中兩流向的綠燈時間,且本式前提為p1<p2;
在相位方案切換的過程中,會涉及信號燈燈色狀態的轉移,若當前信號燈執行方案一,由流向2和流向5組成,下一決策點選擇的動作仍是方案一,則會繼續執行當前方案τg秒;若下一決策點執行的動作是方案二,則在切換到方案二相位之前,會先執行對應的過渡相位τy秒,根據前后決策點的相位方案不同,執行的過渡相位也有所不同,若下一決策點執行方案五動作,則會保持流向2綠燈,而流向5變成黃燈過渡相位;
(6)對排隊長度rqueue、累計等待時間rwaitTime、剎車次數rhalting和相位是否切換rphase四個指標進行系數加權,作為信號智能體的獎勵函數;具體步驟如下:
(6.1)各車道在該決策點的排隊長度之和rqueue;
(6.2)相鄰決策點之間的累計等待時間之差rwaitTime,若當前處于決策點k+1,此時的累計等待時間rwaitTime=Wk+1-Wk,如果rwaitTime<0,表明這段時間路網比之前暢通,反之則表明路網擁堵加重,此外等待時間是根據車輛的速度是否低于0.1m/s來判定的;
(6.3)各車道在該決策點的剎車數量之和rhalting;
(6.4)當前決策點選擇的動作是否會導致相位切換rphase,如果切換的話rphase=1,沒有切換的話rphase=0;
(6.5)綜合以上指標,并結合相應的權重系數k1,k2,k3,k4,加權得到最終的獎勵:
r=k1*rqueue+k2*rwaitTime+k3*rhalting+k4*rphase;
(7)基于以線為單位來調整一定范圍內樣本數據優先級的優先序列經驗重放的方法,并結合Double DQN和Dueling DQN來優化深度Q學習算法,基于Adam優化器,并采用均方差作為損失函數,反復更新網絡模型參數,尋找得到最優的配時方案;所述步驟(7)中,利用Double DQN和Dueling DQN技術來調整Q值的選擇以及局部網絡結構,經過以上調整后,Q值的更新函數如下:
式中,Q(s,a;θ,α,β,δ)=Q(s,a;θ,α,β)+δ
其中,θ和θ-分別表示主網絡和目標網絡參數,α和β表示經Dueling調整后,全連接層兩支流的參數,s′表示下一個狀態,γ表示折扣系數,指的是即時獎勵和累計未來獎勵之間的衰減情況,δ為動作獎懲系數;考慮到短期內交通流和信號方案相互依賴,以及數據自身特性,采用優先序列經驗重放的方法來更新序列樣本的優先級,即以“線”為單位來調整一定范圍內的樣本優先級,并使用均方差作為損失函數:
其中,B表示取樣個數,wj為樣本j重要性采樣權重系數;
通過梯度下降法將誤差反向傳播,并更新一輪網絡模型參數,當獎勵值收斂到穩定值,便得到最佳的信號配時方案;
所述更新規則如下:
pt-1=max(ρ1pt,pt-1)
pt-2=max(ρ2pt,pt-2)
pt-3=max(ρ3pt,pt-3)
...
pt-(W-1)=max(ρ(W-1)pt,pt-(W-1))
其中,ρ為衰減系數,用來相鄰決策點之間優先級影響程度;pt是索引t的樣本優先級,指估計Q值和實際Q值之間差的絕對值,稱為TD-error,其計算公式如下:
pt=|Yt3DQN-Q(s,a;θ,α,β,δ)|+o
其中,o是一個常數,為了避免優先級為零,設為0.0001。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010064330.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種增強氧化鎵半導體器件歐姆接觸的方法
- 下一篇:汽車線束生產管理系統





