[發明專利]一種基于多智能體強化學習的自適應交通信號控制方法有效
| 申請號: | 202011092990.8 | 申請日: | 2020-10-13 |
| 公開(公告)號: | CN112216129B | 公開(公告)日: | 2021-07-27 |
| 發明(設計)人: | 張程偉;靳珊;鄭康潔 | 申請(專利權)人: | 大連海事大學 |
| 主分類號: | G08G1/081 | 分類號: | G08G1/081;G06K9/62 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 陳麗;李洪福 |
| 地址: | 116026 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 智能 強化 學習 自適應 交通信號 控制 方法 | ||
1.一種基于多智能體強化學習的自適應交通信號控制方法,其特征在于,包括以下步驟:
S1:針對交通路網中每個交叉口,建立與所述交叉口對應的智能體網絡;
S2:獲取所述交通路網中的實時交通特征;
S3:將所述實時交通特征按照交叉口的位置分別傳入與所述交叉口對應的智能體網絡中,得到所述智能體網絡輸出的交叉口的相位,并按照所述交叉口的相位執行該交叉口的交通信號控制;其中,所述智能體網絡以該智能體網絡對應的交叉口以及該交叉口相鄰的交叉口的進入車道上正在等待的車輛數量總和的平均值為獎勵確定該交叉口的相位;
S4:將每次執行交通信號控制的交互經驗存儲在經驗庫中;
S5:隨機抽取所述經驗庫中的多次交互經驗輸入深度Q網絡,以最小化路網中所有車輛的平均旅行時間為目的,計算每個智能體網絡的損失函數,基于每個智能體網絡的損失函數更新所述智能體網絡;
相應地,將所述實時交通特征按照交叉口的位置分別傳入與所述交叉口對應的智能體網絡中,包括:將所述實時交通特征按照交叉口的位置分別傳入與所述交叉口對應的更新后的智能體網絡中;
其中,所述計算每個智能體網絡的損失函數,包括:
計算損失函數:Loss=(Yt-Q(ot,ut;θt))2;
其中,Yt為目標Q值,ot為智能體的觀測值,ut為智能體執行的相位編號,θt為主網絡參數,為目標網絡參數;TD-error為δt=Yt-Q(ot,ut;θt);
對TD-errror加權,修正所述損失函數:Loss=(δ′t)2;
其中et為本條經驗的有效性;leniency為智能體接受不好獎勵的樂觀程度。
2.根據權利要求1所述的方法,其特征在于,所述交互經驗包括:智能體的觀測值、智能體執行的相位編號、智能體收到的獎勵、智能體執行動作后的觀測值、有效性。
3.根據權利要求2所述的方法,其特征在于,所述智能體的觀測值由兩部分組成:與所述智能體對應的交叉口的當前相位、與所述智能體對應的交叉口的進入車道集合中每條車道上正在行駛的車輛數量。
4.根據權利要求2所述的方法,其特征在于,還包括:
在每完成一個小時內相位選擇后,更新所述經驗庫中每條交互經驗的有效性。
5.根據權利要求4所述的方法,其特征在于,所述更新所述經驗庫中每條交互經驗的有效性,包括:
其中,eep+1為更新后的交互經驗的有效性;eep為更新前的交互經驗的有效性;ep表示經驗生成后經過的回合數,K為經驗重要性的衰減系數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連海事大學,未經大連海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011092990.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種適用于多種數據帶寬的加密模塊
- 下一篇:一種燒結機側部復合式密封裝置





