[發(fā)明專利]一種基于強(qiáng)化學(xué)習(xí)的交通信號(hào)燈控制方法與系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202110020458.3 | 申請(qǐng)日: | 2021-01-07 |
| 公開(公告)號(hào): | CN112863206B | 公開(公告)日: | 2022-08-09 |
| 發(fā)明(設(shè)計(jì))人: | 盧宗青;姜杰川;王兆植;徐冰妤 | 申請(qǐng)(專利權(quán))人: | 北京大學(xué) |
| 主分類號(hào): | G08G1/081 | 分類號(hào): | G08G1/081 |
| 代理公司: | 北京辰權(quán)知識(shí)產(chǎn)權(quán)代理有限公司 11619 | 代理人: | 劉廣達(dá) |
| 地址: | 100871*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強(qiáng)化 學(xué)習(xí) 交通 信號(hào)燈 控制 方法 系統(tǒng) | ||
本申請(qǐng)公開了一種基于強(qiáng)化學(xué)習(xí)的交通信號(hào)燈控制方法與系統(tǒng),包括:S1,控制器根據(jù)局部觀測(cè)信息和上層策略,從多個(gè)子策略中選擇一個(gè);S2,子策略根據(jù)局部觀測(cè)信息,從多個(gè)相位中選擇一個(gè)執(zhí)行一個(gè)時(shí)間步;S3,控制器根據(jù)獲取到的獎(jiǎng)勵(lì)和當(dāng)前時(shí)間觀測(cè)信息,更新子策略的參數(shù);S4,更新后的子策略選擇保持或更換相位,執(zhí)行一個(gè)時(shí)間步;S5,控制器根據(jù)執(zhí)行的時(shí)間步和周期的數(shù)量以及鄰域觀測(cè)信息,更新權(quán)重參數(shù)和上層策略,執(zhí)行S1,或執(zhí)行S3,或得到訓(xùn)練好的智能體;S6,使用訓(xùn)練好的智能體控制一個(gè)路口中的所有交通信號(hào)燈。能夠在控制其自身對(duì)應(yīng)的路口交通信號(hào)燈的同時(shí),兼顧配合與其相鄰的路口,進(jìn)行協(xié)同合作,從而縮短全局車輛在路口的平均行駛時(shí)間。
技術(shù)領(lǐng)域
本申涉及人工智能領(lǐng)域,尤其涉及一種基于強(qiáng)化學(xué)習(xí)的交通信號(hào)燈控制方法與系統(tǒng)。
背景技術(shù)
交通信號(hào)燈對(duì)于交通動(dòng)作情景的協(xié)調(diào)是決定運(yùn)輸效率的關(guān)鍵因素。然而現(xiàn)有的大部分傳統(tǒng)交通燈控制算法很大程度上依賴于預(yù)先定義好的規(guī)則和假設(shè),這顯然不夠智能化。
強(qiáng)化學(xué)習(xí)(Reinforcement Learning)是機(jī)器學(xué)習(xí)里面的一個(gè)分支,主要包含四個(gè)元素:智能體(Agent)、環(huán)境狀態(tài)(State)、行動(dòng)(Action)和獎(jiǎng)勵(lì)(Reward)。獎(jiǎng)勵(lì)是環(huán)境提供給智能體的一個(gè)可量化的標(biāo)量反饋信號(hào),用于評(píng)價(jià)智能體在某一個(gè)時(shí)間步(Time Step)所做行動(dòng)的好壞。強(qiáng)化學(xué)習(xí)的目標(biāo)是獲得最多的累計(jì)獎(jiǎng)勵(lì)。強(qiáng)化學(xué)習(xí)是控制一個(gè)能夠在某個(gè)環(huán)境下自主行動(dòng)的智能體,通過(guò)和環(huán)境之間的互動(dòng),不斷改進(jìn)它的行為。強(qiáng)化學(xué)習(xí)問題包括學(xué)習(xí)如何做、如何將環(huán)境映射為行動(dòng),從而獲得最大的獎(jiǎng)勵(lì)。在強(qiáng)化學(xué)習(xí)中,學(xué)習(xí)器是一個(gè)制定決策的智能體,它不會(huì)被告知該執(zhí)行什么動(dòng)作,而是經(jīng)過(guò)反復(fù)嘗試運(yùn)行,來(lái)發(fā)現(xiàn)能獲得最大獎(jiǎng)勵(lì)的行為。一般情況下,行動(dòng)不僅會(huì)影響當(dāng)前的獎(jiǎng)勵(lì),而且會(huì)影響下個(gè)時(shí)間點(diǎn)的環(huán)境,因此也會(huì)影響后續(xù)所有的獎(jiǎng)勵(lì)。一個(gè)完整的強(qiáng)化學(xué)習(xí)過(guò)程是讓智能體實(shí)現(xiàn)從一開始完全隨機(jī)的進(jìn)行操作,通過(guò)不斷地嘗試,從錯(cuò)誤中學(xué)習(xí),在不斷的嘗試中更新自己的行為,從而一步步學(xué)習(xí)如何操自己的行為得到高分,最后找到規(guī)律,學(xué)會(huì)了達(dá)到目的的方法。
近年來(lái),研究者們將深度強(qiáng)化學(xué)習(xí)應(yīng)用到了交通燈控制任務(wù)中,并且取得了相比傳統(tǒng)控制方法更好的效果。但是目前很多的基于強(qiáng)化學(xué)習(xí)的控制算法的優(yōu)化目標(biāo)和交通燈控制任務(wù)與的最終目標(biāo)并不相符。交通燈控制的最終目標(biāo)為全局的在時(shí)間維度上的統(tǒng)計(jì)量,然而很多基于強(qiáng)化學(xué)習(xí)的控制算法都單獨(dú)地控制各個(gè)交通信號(hào)燈。
綜上所述,需要提供一種能夠進(jìn)行協(xié)同合作,控制交通信號(hào)燈,從而縮短全局車輛在路口的平均行駛時(shí)間的基于強(qiáng)化學(xué)習(xí)的交通信號(hào)燈控制方法與系統(tǒng)。
發(fā)明內(nèi)容
為解決以上問題,本申請(qǐng)?zhí)岢隽艘环N基于強(qiáng)化學(xué)習(xí)的交通信號(hào)燈控制方法與系統(tǒng)。
一方面,本申請(qǐng)?zhí)岢鲆环N基于強(qiáng)化學(xué)習(xí)的交通信號(hào)燈控制方法,其應(yīng)用于環(huán)境中的每個(gè)智能體,智能體包括控制器和多個(gè)子策略,包括:
S1,控制器根據(jù)局部觀測(cè)信息和上層策略,從多個(gè)子策略中選擇一個(gè);
S2,所述子策略根據(jù)所述局部觀測(cè)信息,從多個(gè)相位中選擇一個(gè)執(zhí)行一個(gè)時(shí)間步;
S3,所述控制器根據(jù)獲取到的獎(jiǎng)勵(lì)和當(dāng)前時(shí)間觀測(cè)信息,更新所述子策略的參數(shù);
S4,更新后的所述子策略選擇保持或更換所述相位,執(zhí)行一個(gè)時(shí)間步;
S5,所述控制器根據(jù)執(zhí)行的所述時(shí)間步的數(shù)量、周期的數(shù)量和鄰域觀測(cè)信息,更新權(quán)重參數(shù)和所述上層策略,執(zhí)行S1;或執(zhí)行S3;或得到訓(xùn)練好的所述智能體;
S6,使用訓(xùn)練好的所述智能體控制一個(gè)路口中的所有交通信號(hào)燈。
優(yōu)選地,所述控制器根據(jù)局部觀測(cè)信息和上層策略,從多個(gè)子策略中選擇一個(gè),包括:
控制器獲取與其對(duì)應(yīng)的局部觀測(cè)信息;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué),未經(jīng)北京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110020458.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





