[發(fā)明專利]基于深度強(qiáng)化學(xué)習(xí)的可變車道及交通信號(hào)協(xié)同控制方法有效

申請(qǐng)?zhí)枺?/td>	202010784747.6	申請(qǐng)日：	2020-08-06
公開（公告）號(hào)：	CN111915894B	公開（公告）日：	2021-07-27
發(fā)明（設(shè)計(jì)）人：	丁川;聶午陽;鹿應(yīng)榮;魯光泉	申請(qǐng)（專利權(quán)）人：	北京航空航天大學(xué)
主分類號(hào)：	G08G1/01	分類號(hào)：	G08G1/01;G08G1/08;G06N3/08
代理公司：	北京慕達(dá)星云知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11465	代理人：	曹鵬飛
地址：	100000***	國(guó)省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于深度強(qiáng)化學(xué)習(xí) 可變車道交通信號(hào) 協(xié)同控制方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于深度強(qiáng)化學(xué)習(xí)的可變車道及交通信號(hào)協(xié)同控制方法，其特征在于，包括：

步驟1：采集交叉口狀態(tài)觀測(cè)值，包含車輛數(shù)據(jù)、信號(hào)燈數(shù)據(jù)和可變車道數(shù)據(jù)，并進(jìn)行預(yù)處理后輸入至神經(jīng)網(wǎng)絡(luò)；

步驟2：所述神經(jīng)網(wǎng)絡(luò)基于強(qiáng)化學(xué)習(xí)不斷更新，直至模型收斂，其中，目標(biāo)Q值的更新公式為：

（1）

式中，為t時(shí)刻的交叉口狀態(tài)觀測(cè)值，為t時(shí)刻采取的控制動(dòng)作，為在狀態(tài)下采取動(dòng)作得到的期望未來獎(jiǎng)勵(lì)總和，簡(jiǎn)稱為Q值，為t+1時(shí)刻，所能取得的最大Q值，為t時(shí)刻的獎(jiǎng)勵(lì)函數(shù)，為折扣因子，為學(xué)習(xí)率；

步驟3：基于訓(xùn)練好的所述神經(jīng)網(wǎng)絡(luò)進(jìn)行最優(yōu)控制：

（2）

式中，表示最優(yōu)策略，s表示某一時(shí)刻交叉口狀態(tài)觀測(cè)值，a表示在狀態(tài)s下采取的控制動(dòng)作，A表示所有控制動(dòng)作，S表示所有狀態(tài)；

步驟1具體包括以下步驟：

步驟11：所述車輛數(shù)據(jù)包含檢測(cè)區(qū)域內(nèi)車輛的速度、距離交叉口的位置和通行方向，預(yù)處理過程為：

將每個(gè)進(jìn)口道長(zhǎng)度L的檢測(cè)區(qū)域劃分為m個(gè)長(zhǎng)度為p的小方格，每個(gè)小方格內(nèi)按照車輛的通行方向分別計(jì)算小方格內(nèi)車輛的數(shù)量和平均速度；

基于以上數(shù)據(jù)構(gòu)建大小為b×m×2的矩陣，其中，第1個(gè)維度b=t×n代表n個(gè)進(jìn)口道上t個(gè)通行方向的車輛數(shù)據(jù)；第2個(gè)維度代表m個(gè)小方格；第3個(gè)維度2代表小方格內(nèi)采集的車輛的數(shù)量和平均速度信息，計(jì)算公式為：

（ 3 ）

其中，i代表第i個(gè)小方格；P代表位置信息；V代表速度信息；S代表直行車輛；L代表左轉(zhuǎn)車輛；為全部直行車輛；為直行車輛的速度；為全部左轉(zhuǎn)車輛；為左轉(zhuǎn)車輛的速度；

所述信號(hào)燈數(shù)據(jù)包含信號(hào)燈程序和信號(hào)燈相位，所述信號(hào)燈程序包括可變車道通行方向?yàn)橹毙械某绦蚝涂勺冘嚨劳ㄐ蟹较驗(yàn)樽筠D(zhuǎn)的程序，預(yù)處理過程為：

在每一時(shí)刻t，用0和1變量表示兩種信號(hào)燈程序，并編碼為2×1的向量矩陣；

信號(hào)燈相位編碼為一個(gè)p×1的向量矩陣，其中p代表相位的個(gè)數(shù)；

所述可變車道數(shù)據(jù)包括可變車道通行方向以及可變車道通行方向和信號(hào)燈程序是否一致;可變車道通行方向用0和1變量表示，表示在直行和左轉(zhuǎn)中切換，編碼為2×1的向量矩陣；變車道通行方向與信號(hào)燈程序是否一致用0和1變量表示，編碼為2×1的向量矩陣。

2.根據(jù)權(quán)利要求1所述的一種基于深度強(qiáng)化學(xué)習(xí)的可變車道及交通信號(hào)協(xié)同控制方法，其特征在于，步驟2具體包括以下步驟：

步驟21：將經(jīng)過預(yù)處理后的所述車輛數(shù)據(jù)依次經(jīng)過兩個(gè)卷積層和ReLU激活函數(shù)后，與經(jīng)過預(yù)處理后的所述信號(hào)燈程序、所述信號(hào)燈相位和所述可變車道通行方向數(shù)據(jù)編碼后進(jìn)行拼接，得到長(zhǎng)度為110的向量，再通過一個(gè)全連接層和ReLU激活函數(shù)后得到長(zhǎng)度為16的向量，最后通過一個(gè)全連接層和softmax激活函數(shù)輸出長(zhǎng)度為3的向量，長(zhǎng)度3代表所述神經(jīng)網(wǎng)絡(luò)輸出的3個(gè)動(dòng)作分別對(duì)應(yīng)的Q值；

步驟22：根據(jù)概率執(zhí)行Q值最大的動(dòng)作，根據(jù)概率執(zhí)行隨機(jī)動(dòng)作，3個(gè)動(dòng)作分別為：動(dòng)作1保持當(dāng)前相位不變，動(dòng)作2信號(hào)燈切換到下一個(gè)相位，動(dòng)作3切換可變車道通行方向；概率在訓(xùn)練開始時(shí)設(shè)置為0.5，隨訓(xùn)練進(jìn)行不斷增大，到訓(xùn)練結(jié)束時(shí)概率增大到0.9；

步驟23：將t時(shí)刻所選擇動(dòng)作作用于交叉口后，將交叉口產(chǎn)生的下一時(shí)刻t+1的狀態(tài)觀測(cè)值和t時(shí)刻采取動(dòng)作后獲得的獎(jiǎng)勵(lì)函數(shù)更新Q值，重復(fù)步驟22和步驟23直至Q值穩(wěn)定，得到訓(xùn)練好的所述神經(jīng)網(wǎng)絡(luò)。

3.根據(jù)權(quán)利要求2所述的一種基于深度強(qiáng)化學(xué)習(xí)的可變車道及交通信號(hào)協(xié)同控制方法，其特征在于，切換可變車道通行方向具體過程為：

步驟221、判斷可變車道通行方向與信號(hào)燈程序是否一致，若一致則執(zhí)行步驟222，否則執(zhí)行步驟223；

步驟222、切換可變車道通行方向；

步驟223、對(duì)可變車道進(jìn)行清空檢測(cè)，如果當(dāng)前可變車道通行方向?yàn)橹毙?，判斷是否有左轉(zhuǎn)車輛在該車道上，如果有則清空檢測(cè)結(jié)果為false，否則清空檢測(cè)結(jié)果為true；如果當(dāng)前可變車道通行方向?yàn)樽筠D(zhuǎn)，判斷是否有直行車輛在該車道上，如果有則清空檢測(cè)結(jié)果為false，否則清空檢測(cè)結(jié)果為true；當(dāng)清空檢測(cè)結(jié)果為true時(shí)，執(zhí)行步驟224，清空檢測(cè)結(jié)果為false，則不執(zhí)行任何動(dòng)作；

步驟224、切換信號(hào)燈程序，如果當(dāng)前信號(hào)燈程序?yàn)橹毙?，則將信號(hào)燈程序切換為左轉(zhuǎn)；如果當(dāng)前信號(hào)燈程序?yàn)樽筠D(zhuǎn)，則將信號(hào)燈程序切換為直行。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué)，未經(jīng)北京航空航天大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010784747.6/1.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

上一篇：一種村鎮(zhèn)污水過渡環(huán)型生態(tài)處理系統(tǒng)及方法
下一篇：一種攝像模組

同類專利

專利分類

G 物理

G08 信號(hào)裝置
G08G 交通控制系統(tǒng)
G08G1-00 道路車輛的交通控制系統(tǒng)
G08G1-005 .包括行人導(dǎo)引指示器的
G08G1-01 .檢測(cè)要統(tǒng)計(jì)或要控制的交通運(yùn)動(dòng)
G08G1-065 .計(jì)算一段道路或停車場(chǎng)上的車輛數(shù)的，即比較進(jìn)出車輛數(shù)
G08G1-07 .交通信號(hào)控制
G08G1-09 .給出可變交通指令的裝置

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】