[發(fā)明專利]基于深度強(qiáng)化學(xué)習(xí)的可變車道及交通信號(hào)協(xié)同控制方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010784747.6 | 申請(qǐng)日: | 2020-08-06 |
| 公開(公告)號(hào): | CN111915894B | 公開(公告)日: | 2021-07-27 |
| 發(fā)明(設(shè)計(jì))人: | 丁川;聶午陽;鹿應(yīng)榮;魯光泉 | 申請(qǐng)(專利權(quán))人: | 北京航空航天大學(xué) |
| 主分類號(hào): | G08G1/01 | 分類號(hào): | G08G1/01;G08G1/08;G06N3/08 |
| 代理公司: | 北京慕達(dá)星云知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11465 | 代理人: | 曹鵬飛 |
| 地址: | 100000*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 強(qiáng)化 學(xué)習(xí) 可變 車道 交通信號(hào) 協(xié)同 控制 方法 | ||
1.一種基于深度強(qiáng)化學(xué)習(xí)的可變車道及交通信號(hào)協(xié)同控制方法,其特征在于,包括:
步驟1:采集交叉口狀態(tài)觀測(cè)值,包含車輛數(shù)據(jù)、信號(hào)燈數(shù)據(jù)和可變車道數(shù)據(jù),并進(jìn)行預(yù)處理后輸入至神經(jīng)網(wǎng)絡(luò);
步驟2:所述神經(jīng)網(wǎng)絡(luò)基于強(qiáng)化學(xué)習(xí)不斷更新,直至模型收斂,其中,目標(biāo)Q值的更新公式為:
(1)
式中,為t時(shí)刻的交叉口狀態(tài)觀測(cè)值,為t時(shí)刻采取的控制動(dòng)作,為在狀態(tài)下采取動(dòng)作得到的期望未來獎(jiǎng)勵(lì)總和,簡(jiǎn)稱為Q值,為t+1時(shí)刻,所能取得的最大Q值,為t時(shí)刻的獎(jiǎng)勵(lì)函數(shù),為折扣因子,為學(xué)習(xí)率;
步驟3:基于訓(xùn)練好的所述神經(jīng)網(wǎng)絡(luò)進(jìn)行最優(yōu)控制:
(2)
式中,表示最優(yōu)策略,s表示某一時(shí)刻交叉口狀態(tài)觀測(cè)值,a表示在狀態(tài)s下采取的控制動(dòng)作,A表示所有控制動(dòng)作,S表示所有狀態(tài);
步驟1具體包括以下步驟:
步驟11:所述車輛數(shù)據(jù)包含檢測(cè)區(qū)域內(nèi)車輛的速度、距離交叉口的位置和通行方向,預(yù)處理過程為:
將每個(gè)進(jìn)口道長(zhǎng)度L的檢測(cè)區(qū)域劃分為m個(gè)長(zhǎng)度為p的小方格,每個(gè)小方格內(nèi)按照車輛的通行方向分別計(jì)算小方格內(nèi)車輛的數(shù)量和平均速度;
基于以上數(shù)據(jù)構(gòu)建大小為b×m×2的矩陣,其中,第1個(gè)維度b=t×n代表n個(gè)進(jìn)口道上t個(gè)通行方向的車輛數(shù)據(jù);第2個(gè)維度代表m個(gè)小方格;第3個(gè)維度2代表小方格內(nèi)采集的車輛的數(shù)量和平均速度信息,計(jì)算公式為:
( 3 )
其中,i代表第i個(gè)小方格;P代表位置信息;V代表速度信息;S代表直行車輛;L代表左轉(zhuǎn)車輛;為全部直行車輛;為直行車輛的速度;為全部左轉(zhuǎn)車輛;為左轉(zhuǎn)車輛的速度;
所述信號(hào)燈數(shù)據(jù)包含信號(hào)燈程序和信號(hào)燈相位,所述信號(hào)燈程序包括可變車道通行方向?yàn)橹毙械某绦蚝涂勺冘嚨劳ㄐ蟹较驗(yàn)樽筠D(zhuǎn)的程序,預(yù)處理過程為:
在每一時(shí)刻t,用0和1變量表示兩種信號(hào)燈程序,并編碼為2×1的向量矩陣;
信號(hào)燈相位編碼為一個(gè)p×1的向量矩陣,其中p代表相位的個(gè)數(shù);
所述可變車道數(shù)據(jù)包括可變車道通行方向以及可變車道通行方向和信號(hào)燈程序是否一致;可變車道通行方向用0和1變量表示,表示在直行和左轉(zhuǎn)中切換,編碼為2×1的向量矩陣;變車道通行方向與信號(hào)燈程序是否一致用0和1變量表示,編碼為2×1的向量矩陣。
2.根據(jù)權(quán)利要求1所述的一種基于深度強(qiáng)化學(xué)習(xí)的可變車道及交通信號(hào)協(xié)同控制方法,其特征在于,步驟2具體包括以下步驟:
步驟21:將經(jīng)過預(yù)處理后的所述車輛數(shù)據(jù)依次經(jīng)過兩個(gè)卷積層和ReLU激活函數(shù)后,與經(jīng)過預(yù)處理后的所述信號(hào)燈程序、所述信號(hào)燈相位和所述可變車道通行方向數(shù)據(jù)編碼后進(jìn)行拼接,得到長(zhǎng)度為110的向量,再通過一個(gè)全連接層和ReLU激活函數(shù)后得到長(zhǎng)度為16的向量,最后通過一個(gè)全連接層和softmax激活函數(shù)輸出長(zhǎng)度為3的向量,長(zhǎng)度3代表所述神經(jīng)網(wǎng)絡(luò)輸出的3個(gè)動(dòng)作分別對(duì)應(yīng)的Q值;
步驟22:根據(jù)概率執(zhí)行Q值最大的動(dòng)作,根據(jù)概率執(zhí)行隨機(jī)動(dòng)作,3個(gè)動(dòng)作分別為:動(dòng)作1保持當(dāng)前相位不變,動(dòng)作2信號(hào)燈切換到下一個(gè)相位,動(dòng)作3切換可變車道通行方向;概率在訓(xùn)練開始時(shí)設(shè)置為0.5,隨訓(xùn)練進(jìn)行不斷增大,到訓(xùn)練結(jié)束時(shí)概率增大到0.9;
步驟23:將t時(shí)刻所選擇動(dòng)作作用于交叉口后,將交叉口產(chǎn)生的下一時(shí)刻t+1的狀態(tài)觀測(cè)值和t時(shí)刻采取動(dòng)作后獲得的獎(jiǎng)勵(lì)函數(shù)更新Q值,重復(fù)步驟22和步驟23直至Q值穩(wěn)定,得到訓(xùn)練好的所述神經(jīng)網(wǎng)絡(luò)。
3.根據(jù)權(quán)利要求2所述的一種基于深度強(qiáng)化學(xué)習(xí)的可變車道及交通信號(hào)協(xié)同控制方法,其特征在于,切換可變車道通行方向具體過程為:
步驟221、判斷可變車道通行方向與信號(hào)燈程序是否一致,若一致則執(zhí)行步驟222,否則執(zhí)行步驟223;
步驟222、切換可變車道通行方向;
步驟223、對(duì)可變車道進(jìn)行清空檢測(cè),如果當(dāng)前可變車道通行方向?yàn)橹毙?,判斷是否有左轉(zhuǎn)車輛在該車道上,如果有則清空檢測(cè)結(jié)果為false,否則清空檢測(cè)結(jié)果為true;如果當(dāng)前可變車道通行方向?yàn)樽筠D(zhuǎn),判斷是否有直行車輛在該車道上,如果有則清空檢測(cè)結(jié)果為false,否則清空檢測(cè)結(jié)果為true;當(dāng)清空檢測(cè)結(jié)果為true時(shí),執(zhí)行步驟224,清空檢測(cè)結(jié)果為false,則不執(zhí)行任何動(dòng)作;
步驟224、切換信號(hào)燈程序,如果當(dāng)前信號(hào)燈程序?yàn)橹毙?,則將信號(hào)燈程序切換為左轉(zhuǎn);如果當(dāng)前信號(hào)燈程序?yàn)樽筠D(zhuǎn),則將信號(hào)燈程序切換為直行。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué),未經(jīng)北京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010784747.6/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





