[發明專利]一種基于物聯網設備的強化學習可變時長信號燈控制方法有效
| 申請號: | 202110067478.6 | 申請日: | 2021-01-19 |
| 公開(公告)號: | CN112927522B | 公開(公告)日: | 2022-07-05 |
| 發明(設計)人: | 陳銘松;張雯倩;趙吳攀;葉豫桐;胡銘;韓定定 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G08G1/07 | 分類號: | G08G1/07;G08G1/08;G08G1/085;G16Y40/35 |
| 代理公司: | 上海德禾翰通律師事務所 31319 | 代理人: | 夏思秋 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 聯網 設備 強化 學習 可變 信號燈 控制 方法 | ||
1.一種基于物聯網設備的強化學習可變時長信號燈控制方法,其特征在于,包括:
步驟1:通過物聯網設備采集到的實時交通數據生成新定義的強度信息;所述步驟1中所述物聯網設備包括測速儀、傳感器;
所述實時交通數據包括車輛的位置和速度;
所述強度信息包括車輛、車道、動作、相位和路口的強度;
車輛的強度的計算公式為:
其中,車輛速度為v,當前車道可允許的最大行駛速度為vmax,車道長度為L,車輛距離路口距離為x,并引入權重系數δ;
車道的強度為當前車道上所有車輛強度之和,即vehiclei表示車道lane上的第i輛車,表示車道lane上的第i輛車的強度;
所述動作強度為當前動作下“駛進路口的車道強度”與“駛出路口的車道強度的平均值”的差值,即
其中,lanein表示該動作下的駛入車道集合,laneout表示從駛入車道可到達的駛出車道集合,lanei表示車道集合中的第i條車道,lanej表示車道集合中的第j條車道,|laneout|表示駛出車道的數量,表示第i條車道的強度,表示第j條車道的強度;
相位的強度為此相位下允許運動的動作強度之和,即movementi表示組成相位phase的第i個動作,表示動作i對應的強度;
路口的強度為所有駛入路口的車輛強度之和減去駛出路口的車輛強度之和,表示為:
其中,lanein表示路口的駛入車道集合,laneout表示路口的駛出車道集合,lanei表示車道集合中的第i條車道,lanej表示車道集合中的第j條車道,表示第i條車道的強度,表示第j條車道的強度;
步驟2:以步驟1為基礎設計強化學習方法;
步驟3:每個路口配置一個強化學習智能體,每當當前相位的綠燈時長用盡時,智能體通過處理路口及道路物聯網設備采集到的交通數據,為信號燈選擇一個最佳相位,同時采集到的交通數據以及所選擇的相位動作將被存儲用來訓練智能體;
步驟4:步驟3所述智能體將根據所選相位選擇最合理的綠燈時長,并為交通信號燈應用所選相位以及綠燈時長;所述綠燈時長通過當前時刻各車道上車輛數量計算所得;
步驟5:存儲數據并通過強化學習智能體的回放機制來更新網絡參數。
2.如權利要求1所述的方法,其特征在于,路口I的鄰居路口的強度為:
其中,lanein由鄰居路口的進車道組成,這些進車道上的車輛將駛向路口I,lanei表示車道集合中的第i條車道,表示第i條車道的強度;n0表示單位時間內通過路口的車輛數,t表示鄰居路口的綠燈剩余時間,N為此時lanein上的車輛總數,ω為權重系數。
3.如權利要求1所述的方法,其特征在于,所述步驟2中所述強化學習方法包括三個要素:狀態、動作及獎勵;
所述狀態為智能體通過物聯網設備對環境觀察后計算得到,包括各個相位的強度,直接鄰居路口的強度以及路口的當前相位;所述各個相位的強度信息以及直接鄰居路口的強度可通過路測速度傳感器以及路口攝像頭采集到的車輛速度、位置計算得到;所述路口當前相位可直接讀取信號燈當前狀態得到;
所述動作表示模型與環境交互所采取的行為,設置為相位編號;
所述獎勵體現在某個狀態下執行某個動作的好壞程度,設置為路口強度的負值。
4.如權利要求3所述的方法,其特征在于,強化學習方法設計的關鍵是狀態和獎勵,通過實時交通數據計算得到的各種強度信息來設計狀態和獎勵,采用DQN網絡結構進行設計。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110067478.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種腸胃外科用掏便輔助槍
- 下一篇:一種橡膠密封條制造工藝





