[發(fā)明專利]基于深度強化學(xué)習(xí)的可變車道及交通信號協(xié)同控制方法有效
| 申請?zhí)枺?/td> | 202010784747.6 | 申請日: | 2020-08-06 |
| 公開(公告)號: | CN111915894B | 公開(公告)日: | 2021-07-27 |
| 發(fā)明(設(shè)計)人: | 丁川;聶午陽;鹿應(yīng)榮;魯光泉 | 申請(專利權(quán))人: | 北京航空航天大學(xué) |
| 主分類號: | G08G1/01 | 分類號: | G08G1/01;G08G1/08;G06N3/08 |
| 代理公司: | 北京慕達星云知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11465 | 代理人: | 曹鵬飛 |
| 地址: | 100000*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 強化 學(xué)習(xí) 可變 車道 交通信號 協(xié)同 控制 方法 | ||
1.一種基于深度強化學(xué)習(xí)的可變車道及交通信號協(xié)同控制方法,其特征在于,包括:
步驟1:采集交叉口狀態(tài)觀測值,包含車輛數(shù)據(jù)、信號燈數(shù)據(jù)和可變車道數(shù)據(jù),并進行預(yù)處理后輸入至神經(jīng)網(wǎng)絡(luò);
步驟2:所述神經(jīng)網(wǎng)絡(luò)基于強化學(xué)習(xí)不斷更新,直至模型收斂,其中,目標(biāo)Q值的更新公式為:
(1)
式中,為t時刻的交叉口狀態(tài)觀測值,為t時刻采取的控制動作,為在狀態(tài)下采取動作得到的期望未來獎勵總和,簡稱為Q值,為t+1時刻,所能取得的最大Q值,為t時刻的獎勵函數(shù),為折扣因子,為學(xué)習(xí)率;
步驟3:基于訓(xùn)練好的所述神經(jīng)網(wǎng)絡(luò)進行最優(yōu)控制:
(2)
式中,表示最優(yōu)策略,s表示某一時刻交叉口狀態(tài)觀測值,a表示在狀態(tài)s下采取的控制動作,A表示所有控制動作,S表示所有狀態(tài);
步驟1具體包括以下步驟:
步驟11:所述車輛數(shù)據(jù)包含檢測區(qū)域內(nèi)車輛的速度、距離交叉口的位置和通行方向,預(yù)處理過程為:
將每個進口道長度L的檢測區(qū)域劃分為m個長度為p的小方格,每個小方格內(nèi)按照車輛的通行方向分別計算小方格內(nèi)車輛的數(shù)量和平均速度;
基于以上數(shù)據(jù)構(gòu)建大小為b×m×2的矩陣,其中,第1個維度b=t×n代表n個進口道上t個通行方向的車輛數(shù)據(jù);第2個維度代表m個小方格;第3個維度2代表小方格內(nèi)采集的車輛的數(shù)量和平均速度信息,計算公式為:
( 3 )
其中,i代表第i個小方格;P代表位置信息;V代表速度信息;S代表直行車輛;L代表左轉(zhuǎn)車輛;為全部直行車輛;為直行車輛的速度;為全部左轉(zhuǎn)車輛;為左轉(zhuǎn)車輛的速度;
所述信號燈數(shù)據(jù)包含信號燈程序和信號燈相位,所述信號燈程序包括可變車道通行方向為直行的程序和可變車道通行方向為左轉(zhuǎn)的程序,預(yù)處理過程為:
在每一時刻t,用0和1變量表示兩種信號燈程序,并編碼為2×1的向量矩陣;
信號燈相位編碼為一個p×1的向量矩陣,其中p代表相位的個數(shù);
所述可變車道數(shù)據(jù)包括可變車道通行方向以及可變車道通行方向和信號燈程序是否一致;可變車道通行方向用0和1變量表示,表示在直行和左轉(zhuǎn)中切換,編碼為2×1的向量矩陣;變車道通行方向與信號燈程序是否一致用0和1變量表示,編碼為2×1的向量矩陣。
2.根據(jù)權(quán)利要求1所述的一種基于深度強化學(xué)習(xí)的可變車道及交通信號協(xié)同控制方法,其特征在于,步驟2具體包括以下步驟:
步驟21:將經(jīng)過預(yù)處理后的所述車輛數(shù)據(jù)依次經(jīng)過兩個卷積層和ReLU激活函數(shù)后,與經(jīng)過預(yù)處理后的所述信號燈程序、所述信號燈相位和所述可變車道通行方向數(shù)據(jù)編碼后進行拼接,得到長度為110的向量,再通過一個全連接層和ReLU激活函數(shù)后得到長度為16的向量,最后通過一個全連接層和softmax激活函數(shù)輸出長度為3的向量,長度3代表所述神經(jīng)網(wǎng)絡(luò)輸出的3個動作分別對應(yīng)的Q值;
步驟22:根據(jù)概率執(zhí)行Q值最大的動作,根據(jù)概率執(zhí)行隨機動作,3個動作分別為:動作1保持當(dāng)前相位不變,動作2信號燈切換到下一個相位,動作3切換可變車道通行方向;概率在訓(xùn)練開始時設(shè)置為0.5,隨訓(xùn)練進行不斷增大,到訓(xùn)練結(jié)束時概率增大到0.9;
步驟23:將t時刻所選擇動作作用于交叉口后,將交叉口產(chǎn)生的下一時刻t+1的狀態(tài)觀測值和t時刻采取動作后獲得的獎勵函數(shù)更新Q值,重復(fù)步驟22和步驟23直至Q值穩(wěn)定,得到訓(xùn)練好的所述神經(jīng)網(wǎng)絡(luò)。
3.根據(jù)權(quán)利要求2所述的一種基于深度強化學(xué)習(xí)的可變車道及交通信號協(xié)同控制方法,其特征在于,切換可變車道通行方向具體過程為:
步驟221、判斷可變車道通行方向與信號燈程序是否一致,若一致則執(zhí)行步驟222,否則執(zhí)行步驟223;
步驟222、切換可變車道通行方向;
步驟223、對可變車道進行清空檢測,如果當(dāng)前可變車道通行方向為直行,判斷是否有左轉(zhuǎn)車輛在該車道上,如果有則清空檢測結(jié)果為false,否則清空檢測結(jié)果為true;如果當(dāng)前可變車道通行方向為左轉(zhuǎn),判斷是否有直行車輛在該車道上,如果有則清空檢測結(jié)果為false,否則清空檢測結(jié)果為true;當(dāng)清空檢測結(jié)果為true時,執(zhí)行步驟224,清空檢測結(jié)果為false,則不執(zhí)行任何動作;
步驟224、切換信號燈程序,如果當(dāng)前信號燈程序為直行,則將信號燈程序切換為左轉(zhuǎn);如果當(dāng)前信號燈程序為左轉(zhuǎn),則將信號燈程序切換為直行。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué),未經(jīng)北京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010784747.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





