[發(fā)明專利]一種基于深度學(xué)習(xí)的城市交通系統(tǒng)調(diào)度策略生成方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011024487.9 | 申請(qǐng)日: | 2020-09-25 |
| 公開(kāi)(公告)號(hào): | CN112150808B | 公開(kāi)(公告)日: | 2022-06-17 |
| 發(fā)明(設(shè)計(jì))人: | 楊嘉琛;張季鵬 | 申請(qǐng)(專利權(quán))人: | 天津大學(xué) |
| 主分類號(hào): | G08G1/01 | 分類號(hào): | G08G1/01;G08G1/09 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 程毓英 |
| 地址: | 300072*** | 國(guó)省代碼: | 天津;12 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 城市交通 系統(tǒng) 調(diào)度 策略 生成 方法 | ||
1.一種基于深度學(xué)習(xí)的城市交通系統(tǒng)調(diào)度策略生成方法,包括如下步驟:
(1)搭建城市交通系統(tǒng)仿真模型;
(2)基于城市交通系統(tǒng)仿真模型,建立馬爾科夫決策過(guò)程,包括狀態(tài)空間、動(dòng)作空間以及回報(bào)函數(shù);具體為:
(2.1)為系統(tǒng)中每一個(gè)交通燈建立狀態(tài)空間:交通燈狀態(tài)空間有GRGR和RGRG兩種狀態(tài),GRGR表示車輛可以在該交通燈所在路口南北向通行,RGRG表示車輛可以在該交通燈所在路口東西向通行;
(2.2)為系統(tǒng)中每一個(gè)車輛建立狀態(tài)空間:車輛狀態(tài)空間包括三個(gè)子空間,第一個(gè)子空間代表車輛速度,是個(gè)連續(xù)空間,取值范圍為0和道路限速組成的閉區(qū)間;第二個(gè)子空間代表車輛所在位置與下一個(gè)交通燈之間的距離,是個(gè)連續(xù)空間,取值范圍為0和路段長(zhǎng)度組成的閉區(qū)間;第三個(gè)子空間代表車輛所在路段,是個(gè)離散空間,取值范圍為1和路段個(gè)數(shù)組成的正整數(shù)區(qū)間;
(2.3)為系統(tǒng)中每一個(gè)交通燈建立動(dòng)作空間,交通燈動(dòng)作空間有兩種動(dòng)作:轉(zhuǎn)化為GRGR和轉(zhuǎn)化為RGRG;
(2.4)為系統(tǒng)中每一個(gè)車輛建立動(dòng)作空間,車輛動(dòng)作空間是個(gè)連續(xù)空間,表示該車輛在該時(shí)刻對(duì)本身施加的加速度,取值范圍與靜態(tài)路網(wǎng)信息單元中的車輛加速度范圍一致;
(2.5)為系統(tǒng)中每一個(gè)交通燈和每一個(gè)車輛建立回報(bào)函數(shù),將系統(tǒng)中每個(gè)車輛的平均延遲的相反數(shù)作為回報(bào),回報(bào)函數(shù)的具體計(jì)算方法如下:
reward=-avg_del
其中,reward是指回報(bào)函數(shù)的具體數(shù)值,avg_del是指每個(gè)車輛的平均延遲,n是指系統(tǒng)中的車輛總數(shù),deli是指第i個(gè)車輛的延遲,vtop是指道路限速,vi是指第i個(gè)車輛的速度,timestep是指車輛在系統(tǒng)中行駛的時(shí)間長(zhǎng)度;
(3)根據(jù)深度學(xué)習(xí)PPO算法,搭建策略神經(jīng)網(wǎng)絡(luò)和估值神經(jīng)網(wǎng)絡(luò);
(4)基于所述城市交通系統(tǒng)仿真模型、各個(gè)狀態(tài)空間、各個(gè)動(dòng)作空間以及回報(bào)函數(shù),對(duì)所述神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,具體為:
(4.1)初始化策略神經(jīng)網(wǎng)絡(luò)參數(shù)和估值神經(jīng)網(wǎng)絡(luò)參數(shù);
(4.2)對(duì)各個(gè)狀態(tài)空間進(jìn)行初始化,得到當(dāng)前狀態(tài)st;
(4.3)城市交通系統(tǒng)仿真模型根據(jù)策略神經(jīng)網(wǎng)絡(luò)輸出的策略基于動(dòng)作空間選擇行為at,執(zhí)行狀態(tài)轉(zhuǎn)移方程,得到下一步的狀態(tài)st+1,根據(jù)回報(bào)函數(shù)獲取回報(bào)rt,計(jì)算此步的優(yōu)勢(shì)函數(shù)At并保存,反復(fù)執(zhí)行此過(guò)程T步;
(4.4)依據(jù)當(dāng)前步驟的車輛平均速度、訓(xùn)練進(jìn)度信息,自適應(yīng)性地更新超參數(shù),具體公式如下:
cpb=base×(1+0.002×iter)-0.75
其中vaver是車輛平均速度,base是常數(shù)參數(shù),iter是當(dāng)前訓(xùn)練輪數(shù),ε是常數(shù)參數(shù);
(4.5)基于(4.3)得到的優(yōu)勢(shì)函數(shù)和(4.4)得到的超參數(shù),根據(jù)PPO算法的損失函數(shù),運(yùn)用梯度下降法更新策略神經(jīng)網(wǎng)絡(luò)參數(shù)和估值神經(jīng)網(wǎng)絡(luò)的參數(shù),具體公式如下;
LMod_PPO(θ)=Et[min(rt(θ)At,clip(rt(θ),1-βMod,1+βMod)At)]
(4.6)策略神經(jīng)網(wǎng)絡(luò)輸出新策略,判斷是否需要更新步長(zhǎng),若新舊策略的KL散度超出閾值則更新步長(zhǎng);
(4.7)反復(fù)執(zhí)行N次(4.2)到(4.6),從而完成神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練,保存訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型;
(5)調(diào)用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行仿真驗(yàn)證并生成城市交通系統(tǒng)調(diào)度策略。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011024487.9/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 一種城市交通地圖數(shù)據(jù)的處理方法及系統(tǒng)
- 一種基于滲流分析的城市交通可靠性指標(biāo)及其實(shí)現(xiàn)方法
- 基于BIM技術(shù)的城市交通管理系統(tǒng)
- 一種智能城市交通系統(tǒng)
- 一種基于滲流分析的交通系統(tǒng)彈性臨界點(diǎn)確定方法
- 一種基于滲流分析的城市交通脆性評(píng)估方法
- 一種城市交通的健康指標(biāo)體系及評(píng)估方法
- 一種基于復(fù)雜網(wǎng)絡(luò)理論的城市交通健康指標(biāo)體系評(píng)估方法
- 一種基于“交通云”的城市交通健康指標(biāo)的建立方法
- 一種城市交通承載力計(jì)算與預(yù)測(cè)方法





