[發(fā)明專(zhuān)利]基于深度強(qiáng)化學(xué)習(xí)的高速公路道路協(xié)同控制系統(tǒng)及方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011202148.5 | 申請(qǐng)日: | 2020-11-02 |
| 公開(kāi)(公告)號(hào): | CN112289044B | 公開(kāi)(公告)日: | 2021-09-07 |
| 發(fā)明(設(shè)計(jì))人: | 王翀 | 申請(qǐng)(專(zhuān)利權(quán))人: | 南京信息工程大學(xué) |
| 主分類(lèi)號(hào): | G08G1/08 | 分類(lèi)號(hào): | G08G1/08;G08G1/01;G06N3/08;G06N3/04 |
| 代理公司: | 南京蘇高專(zhuān)利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 蘇虹 |
| 地址: | 210044 江蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 強(qiáng)化 學(xué)習(xí) 高速公路 道路 協(xié)同 控制系統(tǒng) 方法 | ||
1.一種基于深度強(qiáng)化學(xué)習(xí)的高速公路道路協(xié)同控制系統(tǒng),其特征在于:包括交通信息交互模塊、交通控制模塊、深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)訓(xùn)練模塊以及交通控制單元;
所述交通信息交互模塊,用于采集道路的觀測(cè)信息ot,并轉(zhuǎn)化為可用于深度強(qiáng)化學(xué)習(xí)的交通狀態(tài)信息st發(fā)送給交通控制模塊,以及接收交通控制模塊和交通控制單元的指令并發(fā)送給管轄范圍內(nèi)的車(chē)輛;
所述交通控制模塊,用于根據(jù)接收到的交通狀態(tài)信息st選取最優(yōu)行為策略at,并將at發(fā)送給交通控制單元,將st和at發(fā)送給訓(xùn)練模塊,其中,at包括系統(tǒng)中所有交通控制單元的動(dòng)作集合;
所述深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)訓(xùn)練模塊,用于將來(lái)自交通控制模塊的交通狀態(tài)信息st和行為策略at存入回放記憶庫(kù)中,根據(jù)獎(jiǎng)勵(lì)函數(shù)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使獎(jiǎng)勵(lì)函數(shù)的長(zhǎng)期累積和最大化,以此優(yōu)化決策控制網(wǎng)絡(luò);
所述交通控制單元包括布設(shè)于高速公路主線的可變限速控制單元以及布設(shè)于入口匝道處的匝道信號(hào)控制單元,各控制單元從來(lái)自交通控制模塊的最優(yōu)行為策略at中提取相應(yīng)的動(dòng)作指令,并將指令通過(guò)交通信息交互模塊傳遞給受控路段的車(chē)輛;其中,匝道信號(hào)控制單元用于將入口匝道的放行流量指令轉(zhuǎn)換成紅綠信號(hào)周期,可變限速控制單元用于將限速指令轉(zhuǎn)換成具體的可變限速值;
深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)訓(xùn)練模塊的訓(xùn)練過(guò)程包括如下步驟:
(1)在t+1訓(xùn)練時(shí)刻,從交通信息交互模塊獲取前一時(shí)刻的交通狀態(tài)信息st,從控制模塊獲取協(xié)同策略at,從獎(jiǎng)勵(lì)函數(shù)模塊獲取即時(shí)獎(jiǎng)勵(lì)rt,連同當(dāng)前時(shí)刻的交通狀態(tài)信息st+1,組成交通狀態(tài)數(shù)據(jù)元組(st,at,rt,st+1),存入回放記憶庫(kù)中;
(2)深度學(xué)習(xí)訓(xùn)練模塊從回放記憶庫(kù)中隨機(jī)調(diào)取N條用于訓(xùn)練的數(shù)據(jù)元組(st,at,rt,st+1);
(3)對(duì)于每條數(shù)據(jù)元組,深度學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò)根據(jù)Bellman方程對(duì)其長(zhǎng)期收益進(jìn)行評(píng)分,取兩個(gè)評(píng)分網(wǎng)絡(luò)的較小分值,公式為:
式中,yi是第i條數(shù)據(jù)的得分,ri是第i條數(shù)據(jù)的獎(jiǎng)勵(lì),st+1是歷史交通狀態(tài)信息,是控制模塊在st+1下的策略結(jié)果,θμ′和分別是長(zhǎng)期決策網(wǎng)絡(luò)和長(zhǎng)期評(píng)分網(wǎng)絡(luò)的權(quán)重向量;
(4)基于損失函數(shù)對(duì)評(píng)分網(wǎng)絡(luò)的權(quán)重進(jìn)行更新,使用Adam優(yōu)化器對(duì)更新過(guò)程進(jìn)行優(yōu)化;其中,損失函數(shù)的計(jì)算方法為:
上式中,N為訓(xùn)練數(shù)據(jù)的條數(shù),yi是第i條數(shù)據(jù)的得分,Q(st,at|θQ)為評(píng)分網(wǎng)絡(luò)基于最新的數(shù)據(jù)(st,at)的評(píng)分,θQ為評(píng)分網(wǎng)絡(luò)的權(quán)重;
(5)每隔K個(gè)時(shí)間步長(zhǎng)更新長(zhǎng)期評(píng)分網(wǎng)絡(luò)的權(quán)重,再根據(jù)評(píng)分網(wǎng)絡(luò)的權(quán)重,調(diào)整決策控制網(wǎng)絡(luò)的權(quán)重,改善控制策略。
2.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的高速公路道路協(xié)同控制系統(tǒng),其特征在于:交通信息交互模塊包括若干路側(cè)單元,高速公路主線及入口匝道的每條等距離子路段均配置有采集該子路段交通狀態(tài)信息的路側(cè)單元,采集的交通狀態(tài)信息包括相應(yīng)子路段的車(chē)輛密度、平均速度、排隊(duì)長(zhǎng)度。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于南京信息工程大學(xué),未經(jīng)南京信息工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011202148.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





