[發(fā)明專利]基于聯(lián)邦強(qiáng)化學(xué)習(xí)的多路口智能交通信號(hào)燈控制方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202110779122.5 | 申請(qǐng)日: | 2021-07-09 |
| 公開(公告)號(hào): | CN113643553B | 公開(公告)日: | 2022-10-25 |
| 發(fā)明(設(shè)計(jì))人: | 陳銘松;葉豫桐;趙吳攀 | 申請(qǐng)(專利權(quán))人: | 華東師范大學(xué) |
| 主分類號(hào): | G08G1/07 | 分類號(hào): | G08G1/07;G06F30/27;G06N3/04;G06N3/08;G08G1/01;G08G1/08;G08G1/095 |
| 代理公司: | 上海德禾翰通律師事務(wù)所 31319 | 代理人: | 夏思秋 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 聯(lián)邦 強(qiáng)化 學(xué)習(xí) 路口 智能 交通 信號(hào)燈 控制 方法 系統(tǒng) | ||
本發(fā)明提出了一種基于聯(lián)邦強(qiáng)化學(xué)習(xí)的多路口智能交通信號(hào)燈控制方法,主要包含以下幾方面的內(nèi)容:步驟1:通過對(duì)真實(shí)路口的精準(zhǔn)建模,使用交通模擬軟件Cityflow對(duì)城市交通和交通流量進(jìn)行模擬。步驟2:每個(gè)強(qiáng)化學(xué)習(xí)智能體使用Advantage Actor?Critic(A2C)強(qiáng)化學(xué)習(xí)算法,根據(jù)路口車流情況對(duì)交通信號(hào)燈實(shí)時(shí)控制,每個(gè)交叉路口的強(qiáng)化學(xué)習(xí)智能體由云服務(wù)器協(xié)調(diào)訓(xùn)練;步驟3:提出一種新的基于云?邊協(xié)同的聯(lián)邦強(qiáng)化學(xué)習(xí)框架;步驟4:引入類似聯(lián)邦學(xué)習(xí)的梯度共享與參數(shù)傳遞過程,在強(qiáng)化學(xué)習(xí)智能體之間實(shí)現(xiàn)知識(shí)共享。本發(fā)明還提出了一種基于聯(lián)邦強(qiáng)化學(xué)習(xí)的多路口智能交通信號(hào)燈控制系統(tǒng)。本發(fā)明法不僅在車輛平均行駛時(shí)間方面取得了較好的控制效果,而且能快速收斂到全局最優(yōu)解。
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)技術(shù)領(lǐng)域,涉及一種基于聯(lián)邦強(qiáng)化學(xué)習(xí)的多路口智能交通信號(hào)燈控制方法及系統(tǒng)。
背景技術(shù)
隨著人工智能和物聯(lián)網(wǎng)技術(shù)的繁榮,強(qiáng)化學(xué)習(xí)在智慧交通中變得越來越流行,尤其是自治交通燈系統(tǒng)的控制模型設(shè)計(jì)。為了實(shí)現(xiàn)交通網(wǎng)絡(luò)中基于強(qiáng)化學(xué)習(xí)的自主信號(hào)控制,通常每個(gè)交叉路口都配備有強(qiáng)化學(xué)習(xí)智能體,該強(qiáng)化學(xué)習(xí)智能體基于物聯(lián)網(wǎng)設(shè)備(例如交通攝像頭、路邊傳感器)捕獲的實(shí)時(shí)交通數(shù)據(jù),生成向交叉口所有交通燈發(fā)送信號(hào)的動(dòng)作。對(duì)于每個(gè)交通路口,應(yīng)用在所有相關(guān)交通燈上的一組動(dòng)作形成一個(gè)控制相位,向車輛發(fā)出信號(hào),引導(dǎo)對(duì)應(yīng)方向道路上的車輛通過路口。基于強(qiáng)化學(xué)習(xí)智能體的智能優(yōu)化控制,可以有效降低路網(wǎng)中車輛的平均行駛時(shí)間。同時(shí),所有收集到的交通數(shù)據(jù)及歷史動(dòng)作被用于強(qiáng)化學(xué)習(xí)智能體的訓(xùn)練學(xué)習(xí),以逐步構(gòu)建更精確的控制模型。
雖然基于強(qiáng)化學(xué)習(xí)的方法在獲得準(zhǔn)確的交通控制策略方面很有前途,但其使用受到可擴(kuò)展性問題的極大限制。這是因?yàn)橛糜诮煌刂频膹?qiáng)化學(xué)習(xí)智能體其訓(xùn)練的復(fù)雜性依賴于兩個(gè)關(guān)鍵因素:1.用于交通網(wǎng)絡(luò)的環(huán)境模擬建模,和2.用于每個(gè)狀態(tài)的可能動(dòng)作的數(shù)量。當(dāng)一個(gè)交通網(wǎng)絡(luò)中涉及到更多的路口時(shí),由于路口動(dòng)作的組合,強(qiáng)化學(xué)習(xí)智能體在訓(xùn)練時(shí)的探索空間會(huì)呈現(xiàn)指數(shù)級(jí)增長。因此,現(xiàn)有的基于強(qiáng)化學(xué)習(xí)的方法大多側(cè)重于單個(gè)交叉口的信號(hào)控制優(yōu)化,而不是應(yīng)用在整個(gè)交通網(wǎng)絡(luò)上。這將不可避免地降低控制質(zhì)量,因?yàn)橛筛鱾€(gè)路口的強(qiáng)化學(xué)習(xí)智能體做出的信號(hào)動(dòng)作是相關(guān)的。如果不考慮強(qiáng)化學(xué)習(xí)智能體之間的合作,強(qiáng)化學(xué)習(xí)智能體很容易陷入局部最優(yōu)解,而不是找到全局最優(yōu)解,從而導(dǎo)致控制效果不佳。更糟糕的是,由于缺乏強(qiáng)化學(xué)習(xí)智能體之間協(xié)作,在許多實(shí)際場景中,基于強(qiáng)化學(xué)習(xí)的方法收斂非常慢,甚至無法收斂。因此,如何使各個(gè)路口上的強(qiáng)化學(xué)習(xí)智能體之間的協(xié)作快速學(xué)習(xí)形成整個(gè)交通網(wǎng)絡(luò)的最優(yōu)控制方案,成為基于強(qiáng)化學(xué)習(xí)的交通信號(hào)控制設(shè)計(jì)的一個(gè)主要挑戰(zhàn)。
發(fā)明內(nèi)容
為了應(yīng)對(duì)上述挑戰(zhàn),本發(fā)明的目的是提出一種新的基于聯(lián)邦強(qiáng)化學(xué)習(xí)的多路口智能交通信號(hào)燈控制方法,該方法可以快速導(dǎo)出多路口交通場景下的最優(yōu)交通信號(hào)控制策略,本發(fā)明涉及聯(lián)邦學(xué)習(xí)技術(shù)和深度強(qiáng)化學(xué)習(xí)算法,還有云-邊架構(gòu)設(shè)計(jì),尤其涉及聯(lián)邦學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合。在多個(gè)路口的強(qiáng)化學(xué)習(xí)智能體之間,基于聯(lián)邦學(xué)習(xí),本發(fā)明提出了一種新的云-邊協(xié)作框架,并引入了梯度共享與參數(shù)傳遞過程,實(shí)現(xiàn)了全局的知識(shí)共享,最終實(shí)現(xiàn)一個(gè)多路口交通環(huán)境下的智能信號(hào)燈控制系統(tǒng),即所有車輛在道路網(wǎng)中的平均行駛時(shí)間最短。
本發(fā)明包括以下步驟:
步驟1:模擬城市道路與交通流的方法:本發(fā)明基于交通學(xué)中的最大壓力理論,提出定向道路與其壓力的概念,對(duì)路網(wǎng)中的真實(shí)路口情況和信號(hào)燈控制相位進(jìn)行精確建模,生成用于仿真實(shí)驗(yàn)的真實(shí)道路場景數(shù)據(jù),更好地表達(dá)路口的交通情況。采用開源交通模擬軟件“Cityflow”使用公開數(shù)據(jù)集對(duì)城市交通網(wǎng)絡(luò)和交通流量進(jìn)行模擬,并通過Cityflow的可視化功能,可以觀察到道路的情況和車流量的運(yùn)動(dòng)情況。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華東師范大學(xué),未經(jīng)華東師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110779122.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種Agent聯(lián)邦快速設(shè)計(jì)流程建模方法
- 基于聯(lián)邦模式的動(dòng)態(tài)產(chǎn)品協(xié)同開發(fā)平臺(tái)及方法
- 一種面向深空通信的數(shù)據(jù)傳輸速率控制方法
- 一種HLA聯(lián)邦成員的動(dòng)態(tài)部署分配方法
- 聯(lián)邦學(xué)習(xí)方法、系統(tǒng)、終端設(shè)備及存儲(chǔ)介質(zhì)
- 一種混合聯(lián)邦學(xué)習(xí)方法及架構(gòu)
- 聯(lián)邦學(xué)習(xí)的沙盒機(jī)制
- 聯(lián)邦模型參數(shù)確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種應(yīng)用于異構(gòu)計(jì)算設(shè)備的聯(lián)邦學(xué)習(xí)系統(tǒng)和方法
- 基于區(qū)塊鏈的聯(lián)邦建模方法及裝置
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測方法及系統(tǒng)





