[發明專利]一種具有位置感知的路口交通信號燈調控方法有效
| 申請號: | 202011302815.7 | 申請日: | 2020-11-19 |
| 公開(公告)號: | CN112489464B | 公開(公告)日: | 2022-06-28 |
| 發明(設計)人: | 郭健;李克秋;郝建業 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G08G1/095 | 分類號: | G08G1/095;G08G1/081;G08G1/07 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李素蘭 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 具有 位置 感知 路口 交通 信號燈 調控 方法 | ||
1.一種具有位置感知的路口交通信號燈調控方法,其特征在于,該方法包括以下具體實現過程:
步驟1、利用強化學習網絡模型進行交通信號控制問題的數學建模:
將交通網絡建模為圖的形式并記為G:G=(V,E),V為路口的集合,E為連接兩路口的邊的集合;將每個路口看為一個智能體,共有N個路口;
根據交通信號控制問題定義了狀態空間、動作空間、獎勵如下:
狀態空間記為S:st∈S為t時刻的系統狀態,由交通信號網絡中所有路口的交通狀況信息組成;
觀測空間記為O:為智能體i在t時刻的觀測值;由兩部分組成:(1)路口當前時刻所處的相位;(2)與路口相連的進入車道上車輛的數量;
動作空間記為A:為所有智能體在t時刻的聯合動作ai,t的集合;
獎勵記為R:每個時刻ri,t為每個智能體在t時刻的獎勵;具體為智能體i所表示路口的進入車道中車輛總數的負值,即為t時刻在進入車道l中的車輛數量;
步驟2、進行智能體原始觀測值oi的預處理:
在t時刻,每個智能體的原始局部觀測值為每個車道上的車輛數量和交通信號當前所處的相位的拼接向量,通過多層感知機將智能體i的k維原始觀測值oit映射到m維的隱空間中,輸出的隱狀態hi,t∈Rm表示第i個路口在t時刻的交通狀況,m為維度,公式如下:
其中,k為的特征信息維度,Wo∈Rk×m、bo∈Rm分別為多層感知機隱藏層中的權重矩陣和偏置,σ為ReLU激活函數;
步驟3、獲取智能體之間具有位置感知的邊特征:
選擇目標路口i的k維以內的全部路口作為鄰居節點集N(i),然后計算目標路口i與相鄰路口j∈N(i)的歐式距離d(i,j);基于坐標計算路口i和j之間的歐式距離d(i,j)計算公式如下:
d(i,j)=f距離(i,j;Gw)
將d(i,j)映射到在[0,1]范圍內的數值pi,j來表示路口之間的相對位置關系,公式如下:
最終得到邊特征ei,j=(pi,j,si,j)表示相鄰路口j與目標路口i的相對位置和結構信息;
步驟4、實現智能體之間的Pos-Light消息傳遞模型,進行交通信息的融合,分為以下兩個階段:
1)邊的特征信息與相鄰路口信息的整合
對于任意的鄰居路口j∈N(i),N(i)為目標路口i的相鄰路口集合ei,j=(pi,j,si,j)為i,j的邊的特征信息;針對兩種類型的邊的特征編碼鄰居路口的交通信息,表達式如下:
其中,使用多層感知機保留了相鄰路口j相對于目標路口i的空間結構信息si,j∈Rl,l為目標路口的鄰居節點個數,Ws∈Rl×m為網絡的權重矩陣,bs∈Rm為網絡的偏置,
匯總鄰居路口的交通消息和然后對總信息進行編碼以獲得相鄰路口j的包含位置信息的最終交通消息hi,j,表達式如下:
其中,We∈Rm×n為網絡的權重矩陣,be∈Rn為網絡的偏置,hi.j∈Rn為相鄰路口j對于目標路口i的位置信息;
2)更新目標路口的交通狀況表征:
在此階段,通過聚合目標路口i周邊的交通信息來更新每個路口的交通狀況表征
其中,Wh∈Rn×c為網絡的權重矩陣,bh∈Rc為網絡偏置,聚合了目標路口i周圍交通狀況的重要信息,使智能體能夠更高效的進行決策;
步驟5、實現Q網絡的路口交通信號燈調控決策:
對于每個智能體即目標路口i,將輸入Q網絡,智能體根據Q網絡的輸出,使用ε-貪心算法來選擇動作,即令ε=p,p∈[0,1],在[0,1]范圍內生成隨機數q,如果q<ε=p,則從可選動作中隨機選擇一個動作,否則選擇使Q值最大的動作為當前時刻智能體的動作;
在t時刻,每個智能體的Q值為:
其中,Wd∈Rc×d為Q網絡的權重矩陣,bd∈Rd為Q網絡的偏置,d為動作空間的大小,Qi,t∈R|A|,Qi,t(a)為動作a對應的Q值;
步驟6、進行基于Q網絡的調控目標訓練:
將每個t時刻的轉移序列(st,at,st+1,rt)存儲到經驗池D中,其中全局觀測值聯合動作獎勵
更新模型的損失函數為:
yi,t=ri,t+γmaxa′Qi,t+1(a′;tar)
其中,T為用于模型更新的時間步總數,N為整個交通網絡中的路口總數,算法根據損失函數的更新公式來更新訓練網絡中的參數每經過g輪迭代后,將預測網絡中的參數復制給目標網絡中的參數
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011302815.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種婦產科用刮宮異物殘留檢測設備
- 下一篇:一種智能交通路況信息采集設備





