[發明專利]一種基于多智能體強化學習的自適應交通信號控制方法有效
| 申請號: | 202011092990.8 | 申請日: | 2020-10-13 |
| 公開(公告)號: | CN112216129B | 公開(公告)日: | 2021-07-27 |
| 發明(設計)人: | 張程偉;靳珊;鄭康潔 | 申請(專利權)人: | 大連海事大學 |
| 主分類號: | G08G1/081 | 分類號: | G08G1/081;G06K9/62 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 陳麗;李洪福 |
| 地址: | 116026 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 智能 強化 學習 自適應 交通信號 控制 方法 | ||
本發明公開了一種基于多智能體強化學習的自適應交通信號控制方法,包括:針對交通路網中每個交叉口,建立與所述交叉口對應的智能體網絡;獲取所述交通路網中的實時交通特征;將所述實時交通特征按照交叉口的位置分別傳入與所述交叉口對應的智能體網絡中,得到所述智能體網絡輸出的交叉口的相位,并按照所述交叉口的相位執行該交叉口的交通信號控制;其中,所述智能體網絡以該智能體網絡對應的交叉口以及該交叉口相鄰的交叉口的進入車道上正在等待的車輛數量總和的平均值為獎勵確定該交叉口的相位。本發明提高了獨立智能體之間的協調能力,為復雜路網環境的交通信號控制提供解決方案。
技術領域
本發明涉及交通控制技術領域,更具體地說,涉及一種基于多智能體強化學習的自適應交通信號控制方法。
背景技術
實現智能交通信號控制是一種減少交通擁堵和提高交通效率的低成本方法。由于交通流量具有隨時間變化和隨機性的特點,尤其是在多十字路口的復雜路網環境,所以流量建模仍然是非常困難的。
現有技術中提出一種基于多智能體強化學習利用馬爾可夫決策過程(MarkovDecision Process,MDP)對交通信號控制進行建模的方法,將單智能體優勢行動者評論家(Advantage Actor-Critic)算法擴展到多智能體交通環境中。
上述方法是可擴展的獨立式算法,僅從交通模型上增加智能體之間的合作的可能性,并未對多智能體協作問題做相關針對性的設計。考慮到多智能體協作問題在獨立式算法中會遇到不穩定性,不協調等困難,在復雜路網環境中,如路網中車輛數量多導致的路口間高協調需求環境,很難學習到好的協作策略。
發明內容
有鑒于此,本發明提供一種基于多智能體強化學習的自適應交通信號控制方法,以提高獨立智能體之間的協調能力,為復雜路網環境的交通信號控制提供解決方案。
為了實現上述目的,現提出的方案如下:
一種基于多智能體強化學習的自適應交通信號控制方法,包括以下步驟:
S1:針對交通路網中每個交叉口,建立與所述交叉口對應的智能體網絡;
S2:獲取所述交通路網中的實時交通特征;
S3:將所述實時交通特征按照交叉口的位置分別傳入與所述交叉口對應的智能體網絡中,得到所述智能體網絡輸出的交叉口的相位,并按照所述交叉口的相位執行該交叉口的交通信號控制;其中,所述智能體網絡以該智能體網絡對應的交叉口以及該交叉口相鄰的交叉口的進入車道上正在等待的車輛數量總和的平均值為獎勵確定該交叉口的相位。
進一步地,還包括:
S4:將每次執行交通信號控制的交互經驗存儲在經驗庫中。
進一步地,還包括:
S5:隨機抽取所述經驗庫中的多次交互經驗輸入深度Q網絡,以最小化路網中所有車輛的平均旅行時間為目的,計算每個智能體網絡的損失函數,基于每個智能體網絡的損失函數更新所述智能體網絡;
相應地,將所述實時交通特征按照交叉口的位置分別傳入與所述交叉口對應的智能體網絡中,包括:
將所述實時交通特征交叉口的位置分別傳入與所述交叉口對應的更新后的智能體網絡中。
進一步地,所述計算每個智能體網絡的損失函數,包括:
計算損失函數:Loss=(Yt-Q(ot,ut;θt))2;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連海事大學,未經大連海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011092990.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種適用于多種數據帶寬的加密模塊
- 下一篇:一種燒結機側部復合式密封裝置





