[發明專利]一種基于Categorical-DQN樂觀探索的交通控制方法有效
| 申請號: | 202110649807.8 | 申請日: | 2021-06-10 |
| 公開(公告)號: | CN113393667B | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 張程偉;田宇;房迪娜 | 申請(專利權)人: | 大連海事大學 |
| 主分類號: | G08G1/01 | 分類號: | G08G1/01;G08G1/08;G08G1/081;G06N3/00 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 王洪生;李洪福 |
| 地址: | 116026 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 categorical dqn 樂觀 探索 交通 控制 方法 | ||
本發明提供一種基于Categorical?DQN樂觀探索的交通控制方法,涉及樂觀探索技術領域,包括以下步驟:S1:將交叉口建模為智能體,初始化當前網絡Z(o,a;θ)和目標網絡Z′(o,a;θ′),其中:o為局部觀測,a為下一刻要選擇的信號相位,θ為當前網絡參數,θ′為目標網絡參數;S2:將經驗回放池ERM進行初始化;S3:設置貪婪因子ε及樂觀因子τ為1;S4:設置訓練次數M,將S1所述智能體重復訓練M次;該方法可以應用到交通環境中,將交叉口建模為智能體,在多智能體環境下訓練各個交叉口,實現交叉口之間的協作,有效緩解交通擁堵。方法效果的提升在交通環境中也帶來了效果的提升。
技術領域
本發明涉及樂觀探索技術領域,尤其涉及一種基于Categorical-DQN樂觀探索的交通控制方法。
背景技術
傳統RL對獨立學習(IL)MARL的研究主要是基于“樂觀”原則,智能體根據最大期望回報(MER)或MER和期望回報的加權值來選擇和評估一個動作。這些智能體樂觀地假設其他所有智能體都采取能夠最大化他們的回報的動作。因此,只有新的評估比之前的更好,他們才會更新動作的評估值。而對于深度強化學習(DRL)算法,則表現出了深度強化學習協同問題中固有的缺陷,如采樣效率低,這是由于將過時的經驗存儲在經驗重放記憶(ERM)中,當其他智能體的策略發生變化時,樣本的作用就降低了。因此現在關于ILs的DRL算法都是基于“樂觀”原則,關注如何識別和丟棄經驗或者軌跡來減小由上述提到的學習挑戰導致的不協調的可能性。然而,經驗(或軌跡)的重要性很難確定,特別是在最優聯合策略附近懲罰較高或最優聯合策略比次優策略更難探索的游戲中。上述方法在一些復雜的場景下,如具有連續狀態空間的環境下同時面臨帶有上述挑戰的ILs時,它們都容易趨向于次優策略。
ATSC的目標是在實時道路交通測量的基礎上自適應地調整信號相位以減少交通擁擠。為了解決ATSC問題,現有一些工作利用集中訓練分布式執行(CTDE)機制學習最優聯合策略,解決多智能體協作問題。然而,由于聯合動作空間隨著智能體數量的增加呈指數增長,集中式學習難以擴展。在真實的城市交通環境中,可能有上千個交叉口共同協調以優化城市交通。將交通信號控制定義為分散的多智能體協同控制(MARL)更為自然,即每個交叉口由一個具有局部觀測的單一智能體控制。將其他智能體視為環境的一部分,僅根據其局部的觀測、動作和獎勵做出決策,這種方法是更普遍適用的。但它在學習中面臨幾大挑戰,比如不穩定性,隨機性和相對過度泛化問題,這些問題會導致結果趨于次優策略而無法得到全局最優策略。如果在一些復雜的場景下,如具有連續狀態空間的環境下這些問題會更加嚴重。現有的交通控制方法,只是控制固定的紅綠燈時間,并沒有根據車輛的多少來控制紅綠燈的信號相位,而這種情況往往會造成交通擁堵。綜上所述,有待發明一種能夠根據車輛數量控制紅綠燈信號相位的交通控制方法。
發明內容
本發明提供一種基于Categorical-DQN樂觀探索的交通控制方法,解決了現有交通控制方法無法根據車輛控制信號相位的問題。
為達到以上目的,本發明采取的技術方案是:
一種基于Categorical-DQN樂觀探索的交通控制方法,包括以下步驟:
S1:將交叉口建模為智能體,初始化當前網絡Z(o,a;θ)和目標網絡Z′(o,a;θ′),
其中:o為局部觀測,a為下一刻要選擇的信號相位,θ為當前網絡參數,θ′為目標網絡參數;
S2:將經驗回放池ERM進行初始化;
S3:設置貪婪因子ε及樂觀因子τ為1;
S4:設置訓練次數M,將S1所述智能體重復訓練M次;
S41:獲取當前交叉口處的車輛數量和信號相位;
S42:限定每回合中交通時間為T,在每個時間步t上,t=1,...,T:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連海事大學,未經大連海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110649807.8/2.html,轉載請聲明來源鉆瓜專利網。





