[發明專利]一種基于雙經驗池DQN的交通信號燈控制方法有效
| 申請號: | 202210415387.1 | 申請日: | 2022-04-20 |
| 公開(公告)號: | CN114613169B | 公開(公告)日: | 2023-02-28 |
| 發明(設計)人: | 孔燕;楊智超 | 申請(專利權)人: | 南京信息工程大學 |
| 主分類號: | G08G1/08 | 分類號: | G08G1/08;G08G1/01;G06N3/047;G06N3/0442;G06N3/08 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 常虹 |
| 地址: | 210044 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 經驗 dqn 交通 信號燈 控制 方法 | ||
1.一種基于雙經驗池DQN的交通信號燈控制方法,其特征在于,包括步驟:
S1、建立基于DQN算法的交通信號燈控制主網絡和目標值網絡;所述交通信號燈控制主網絡和目標值網絡的結構相同,輸入為狀態值,輸出為在輸入狀態值下執行各種動作的Q值最大值,以及該Q值最大值所對應的動作;所述主網絡和目標值網絡的狀態空間為交通路口各車道上車輛的數量構成的向量,動作空間為對交通路口當前所有交通信號燈相位的調控操作構成的向量,獎勵函數為交通路口所有進車道上車輛數量與出車道上車輛數量之差;
S2、對主網絡的參數θ進行隨機初始化,將目標值網絡的參數θ′初始化為θ,初始化時間步t=0,采集交通路口的路況信息,建立初始狀態值st,初始化
S3、將st輸入主網絡中,選擇使Q(st,a;θ)取最大值的動作at作為當前時間對交通信號燈的調控操作,即:at=argmaxaQ(st,a;θ),其中Q(st,a;θ)表示主網絡在參數θ下根據狀態st動作a輸出的Q值;
S4、執行動作at并計算獎勵rt和狀態st+1;將(st,at,rt,st+1)存儲到第一經驗池中;
S5、當t>0時計算當前歷史經驗平均獎勵如果將(st,at,rt,st+1)存儲到第二經驗池中;
S6、在(p1,p2)區間內生成隨機數P,以1-P作為概率選擇第一經驗池,以P作為概率選擇第二經驗池,在選中的經驗池中隨機抽樣B個記錄,通過最小化損失函數訓練主網絡的參數θ;p1,p2為預設的區間下限和上限,0<p1<p2<1;
所述損失函數為:
其中(si,ai,ri,si+1)為在選中的經驗池中隨機抽樣的記錄,γ為折扣因子,maxa′Q′(si+1,a′,θ′)表示目標值網絡在輸入狀態si+1時輸出的最大的Q值,maxaQ(si,a,θ)表示主網絡在輸入狀態si時輸出的最大的Q值;
S7、令t加一,如果mod(t,C)為0,將目標值網絡的參數θ′更新為主網絡的參數θ;mod為取余運算,C為預設的參數更新時間步;根據當前路況信息更新st,跳轉至步驟S3繼續執行。
2.根據權利要求1所述的基于雙經驗池DQN的交通信號燈控制方法,其特征在于,所述步驟S6中采用梯度下降法最小化損失函數得到主網絡的參數。
3.根據權利要求1所述的基于雙經驗池DQN的交通信號燈控制方法,其特征在于,當交通路口為十字路口,所述主網絡和目標值網絡的狀態空間中的狀態值為[n1,m1,n2,m2,n3,m3,n4,m4],其中nj為十字路口中第j個進車道上的車輛數量,mj為第j個出車道上的車輛數量;j=1,2,3,4。
4.根據權利要求1所述的基于雙經驗池DQN的交通信號燈控制方法,其特征在于,所述主網絡和目標值網絡的動作空間中的動作值有三種取值,分別為:ac1:當前相位時長加T秒;ac2:當前相位時長減T秒;ac3:當前相位時長不變。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京信息工程大學,未經南京信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210415387.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種止咳煙油及其制備方法
- 下一篇:作業車輛控制裝置





