[發明專利]基于深度強化學習單路口交通信號控制方法、系統、裝置有效
| 申請號: | 201910629489.1 | 申請日: | 2019-07-12 |
| 公開(公告)號: | CN110428615B | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 呂宜生;柴嘉駿;于銘瑞;陳圓圓;熊剛;朱鳳華;王飛躍 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G08G1/01 | 分類號: | G08G1/01;G08G1/08;G06N20/00 |
| 代理公司: | 北京市恒有知識產權代理事務所(普通合伙) 11576 | 代理人: | 郭文浩;尹文會 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 路口 交通信號 控制 方法 系統 裝置 | ||
1.一種基于深度強化學習單路口交通信號控制方法,其特征在于,該控制方法包括:
步驟S10,獲取當前交叉口交通狀態信息;
步驟S20,基于所述當前時刻交叉口交通狀態信息,采用交通信號生成網絡計算交叉口信號燈下一相位時長;
其中,所述交通信號生成網絡基于深度強化學習方法訓練,包括:
步驟B10,根據獲取的交叉口交通狀態信息建立交叉口微觀交通仿真環境;針對每個交通相位,定義深度強化學習模型的獎勵、動作以及狀態,設定評判網絡和交通信號生成網絡;
步驟B20,將所述深度強化學習模型應用于所述交叉口微觀交通仿真環境的路口,采用所述交通信號生成網絡在設定的動作取值范圍內輸出動作獲得交叉口信號燈下一相位時長,并獲取第一預設數量的交叉口交通狀態信息元組作為訓練數據;
步驟B30,獲取當前階段第二預設數量的交叉口交通狀態信息元組并結合所述訓練數據,采用所述交通信號生成網絡在設定的動作取值范圍內輸出動作獲得交叉口信號燈下一相位時長,并計算所述評判網絡的訓練誤差值;所述評判網絡的訓練誤差為:
其中,代表訓練誤差;代表時刻狀態,代表此狀態下所采取的動作,為此動作對應的獎勵,代表下一狀態;為以為網絡參數、在狀態下使用策略計算得到的動作;代表評判網絡,代表評判網絡的參數;為交叉口交通狀態信息元組的總數;
其中,代表根據交通信號生成網絡的目標子網絡計算得到的動作,代表其網絡參數;為評判網絡的目標子網絡,代表其網絡參數,是取值范圍為的折扣因子;
步驟B40,更新所述評判網絡的參數并重復執行步驟B30直至達到第一預設訓練次數,獲得第一評判網絡;
步驟B50,獲取當前階段第三預設數量的交叉口交通狀態信息元組并結合所述第二預設數量的交叉口交通狀態信息元組、所述訓練數據,采用所述交通信號生成網絡獲得交叉口信號燈下一相位時長,并計算所述第一評判網絡的訓練誤差值;
步驟B60,更新所述第一評判網絡以及交通信號生成網絡的參數并重復執行步驟B50直至達到第二預設訓練次數,獲得訓練好的交通信號生成網絡;
使用技術提高所述交通信號生成網絡的訓練效果:
判斷所述交通信號生成網絡的獎勵是否低于設定閾值,是則放棄獎勵低于設定閾值的一批訓練數據。
2.根據權利要求1所述的基于深度強化學習單路口交通信號控制方法,其特征在于,所述交叉口微觀交通仿真環境包括:
交叉口車道數、進口道長度、渠化、相位組成、交叉口車流量、車流組成、車流轉向。
3.根據權利要求1所述的基于深度強化學習單路口交通信號控制方法,其特征在于,步驟B10中“定義深度強化學習模型的獎勵、動作以及狀態”,其方法為:
其中,為深度強化學習模型的獎勵,為在時刻各進口車道等待車輛的數目,為交叉口信號燈下一相位持續時長,代表交叉口信號燈下一相位起始時刻;
為動作連續控制量,取值范圍為;
其中,為深度強化學習模型的狀態,為第條進口道所能容納的最大車輛數,分別為對第條車道的等待車輛數和即將到達的車輛數歸一化后得到的狀態信息,為進口車道數目。
4.根據權利要求1所述的基于深度強化學習單路口交通信號控制方法,其特征在于,所述交通信號生成網絡參數的更新方向為策略梯度方向;所述策略梯度為:
其中,為策略梯度,代表時刻狀態,代表此狀態下所采取的動作,為此動作對應的獎勵,代表下一狀態;代表在狀態下使用策略計算得到的動作;代表評判網絡,代表交通信號生成網絡,、分別代表評判網絡和交通信號生成網絡的參數,為交叉口交通狀態信息元組的總數。
5.根據權利要求1所述的基于深度強化學習單路口交通信號控制方法,其特征在于,步驟S20中“采用交通信號生成網絡計算交叉口信號燈下一相位時長”,其方法為:
將所述交通信號生成網絡在當前相位數據下的輸出動作通過線性映射轉換為交叉口信號燈下一相位的持續時長:
其中,為動作連續控制量,取值范圍為;為交叉口信號燈下一相位持續時長,、分別為事先設定的相位時長的上限與下限。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910629489.1/1.html,轉載請聲明來源鉆瓜專利網。





