[發(fā)明專利]一種基于強(qiáng)化學(xué)習(xí)的交通信號(hào)燈控制方法與系統(tǒng)有效

申請(qǐng)?zhí)枺?/td>	202110020458.3	申請(qǐng)日：	2021-01-07
公開（公告）號(hào)：	CN112863206B	公開（公告）日：	2022-08-09
發(fā)明（設(shè)計(jì)）人：	盧宗青;姜杰川;王兆植;徐冰妤	申請(qǐng)（專利權(quán)）人：	北京大學(xué)
主分類號(hào)：	G08G1/081	分類號(hào)：	G08G1/081
代理公司：	北京辰權(quán)知識(shí)產(chǎn)權(quán)代理有限公司 11619	代理人：	劉廣達(dá)
地址：	100871***	國(guó)省代碼：	北京;11
權(quán)利要求書：	查看更多	說(shuō)明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于強(qiáng)化學(xué)習(xí) 交通信號(hào)燈控制方法系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【說(shuō)明書】：

本申請(qǐng)公開了一種基于強(qiáng)化學(xué)習(xí)的交通信號(hào)燈控制方法與系統(tǒng)，包括：S1，控制器根據(jù)局部觀測(cè)信息和上層策略，從多個(gè)子策略中選擇一個(gè)；S2，子策略根據(jù)局部觀測(cè)信息，從多個(gè)相位中選擇一個(gè)執(zhí)行一個(gè)時(shí)間步；S3，控制器根據(jù)獲取到的獎(jiǎng)勵(lì)和當(dāng)前時(shí)間觀測(cè)信息，更新子策略的參數(shù)；S4，更新后的子策略選擇保持或更換相位，執(zhí)行一個(gè)時(shí)間步；S5，控制器根據(jù)執(zhí)行的時(shí)間步和周期的數(shù)量以及鄰域觀測(cè)信息，更新權(quán)重參數(shù)和上層策略，執(zhí)行S1，或執(zhí)行S3，或得到訓(xùn)練好的智能體；S6，使用訓(xùn)練好的智能體控制一個(gè)路口中的所有交通信號(hào)燈。能夠在控制其自身對(duì)應(yīng)的路口交通信號(hào)燈的同時(shí)，兼顧配合與其相鄰的路口，進(jìn)行協(xié)同合作，從而縮短全局車輛在路口的平均行駛時(shí)間。

技術(shù)領(lǐng)域

本申涉及人工智能領(lǐng)域，尤其涉及一種基于強(qiáng)化學(xué)習(xí)的交通信號(hào)燈控制方法與系統(tǒng)。

背景技術(shù)

交通信號(hào)燈對(duì)于交通動(dòng)作情景的協(xié)調(diào)是決定運(yùn)輸效率的關(guān)鍵因素。然而現(xiàn)有的大部分傳統(tǒng)交通燈控制算法很大程度上依賴于預(yù)先定義好的規(guī)則和假設(shè)，這顯然不夠智能化。

強(qiáng)化學(xué)習(xí)(Reinforcement Learning)是機(jī)器學(xué)習(xí)里面的一個(gè)分支，主要包含四個(gè)元素：智能體(Agent)、環(huán)境狀態(tài)(State)、行動(dòng)(Action)和獎(jiǎng)勵(lì)(Reward)。獎(jiǎng)勵(lì)是環(huán)境提供給智能體的一個(gè)可量化的標(biāo)量反饋信號(hào)，用于評(píng)價(jià)智能體在某一個(gè)時(shí)間步(Time Step)所做行動(dòng)的好壞。強(qiáng)化學(xué)習(xí)的目標(biāo)是獲得最多的累計(jì)獎(jiǎng)勵(lì)。強(qiáng)化學(xué)習(xí)是控制一個(gè)能夠在某個(gè)環(huán)境下自主行動(dòng)的智能體，通過(guò)和環(huán)境之間的互動(dòng)，不斷改進(jìn)它的行為。強(qiáng)化學(xué)習(xí)問題包括學(xué)習(xí)如何做、如何將環(huán)境映射為行動(dòng)，從而獲得最大的獎(jiǎng)勵(lì)。在強(qiáng)化學(xué)習(xí)中，學(xué)習(xí)器是一個(gè)制定決策的智能體，它不會(huì)被告知該執(zhí)行什么動(dòng)作，而是經(jīng)過(guò)反復(fù)嘗試運(yùn)行，來(lái)發(fā)現(xiàn)能獲得最大獎(jiǎng)勵(lì)的行為。一般情況下，行動(dòng)不僅會(huì)影響當(dāng)前的獎(jiǎng)勵(lì)，而且會(huì)影響下個(gè)時(shí)間點(diǎn)的環(huán)境，因此也會(huì)影響后續(xù)所有的獎(jiǎng)勵(lì)。一個(gè)完整的強(qiáng)化學(xué)習(xí)過(guò)程是讓智能體實(shí)現(xiàn)從一開始完全隨機(jī)的進(jìn)行操作，通過(guò)不斷地嘗試，從錯(cuò)誤中學(xué)習(xí)，在不斷的嘗試中更新自己的行為，從而一步步學(xué)習(xí)如何操自己的行為得到高分，最后找到規(guī)律，學(xué)會(huì)了達(dá)到目的的方法。

近年來(lái)，研究者們將深度強(qiáng)化學(xué)習(xí)應(yīng)用到了交通燈控制任務(wù)中，并且取得了相比傳統(tǒng)控制方法更好的效果。但是目前很多的基于強(qiáng)化學(xué)習(xí)的控制算法的優(yōu)化目標(biāo)和交通燈控制任務(wù)與的最終目標(biāo)并不相符。交通燈控制的最終目標(biāo)為全局的在時(shí)間維度上的統(tǒng)計(jì)量，然而很多基于強(qiáng)化學(xué)習(xí)的控制算法都單獨(dú)地控制各個(gè)交通信號(hào)燈。

綜上所述，需要提供一種能夠進(jìn)行協(xié)同合作，控制交通信號(hào)燈，從而縮短全局車輛在路口的平均行駛時(shí)間的基于強(qiáng)化學(xué)習(xí)的交通信號(hào)燈控制方法與系統(tǒng)。

發(fā)明內(nèi)容

為解決以上問題，本申請(qǐng)?zhí)岢隽艘环N基于強(qiáng)化學(xué)習(xí)的交通信號(hào)燈控制方法與系統(tǒng)。

一方面，本申請(qǐng)?zhí)岢鲆环N基于強(qiáng)化學(xué)習(xí)的交通信號(hào)燈控制方法，其應(yīng)用于環(huán)境中的每個(gè)智能體，智能體包括控制器和多個(gè)子策略，包括：

S1，控制器根據(jù)局部觀測(cè)信息和上層策略，從多個(gè)子策略中選擇一個(gè)；

S2，所述子策略根據(jù)所述局部觀測(cè)信息，從多個(gè)相位中選擇一個(gè)執(zhí)行一個(gè)時(shí)間步；

S3，所述控制器根據(jù)獲取到的獎(jiǎng)勵(lì)和當(dāng)前時(shí)間觀測(cè)信息，更新所述子策略的參數(shù)；

S4，更新后的所述子策略選擇保持或更換所述相位，執(zhí)行一個(gè)時(shí)間步；

S5，所述控制器根據(jù)執(zhí)行的所述時(shí)間步的數(shù)量、周期的數(shù)量和鄰域觀測(cè)信息，更新權(quán)重參數(shù)和所述上層策略，執(zhí)行S1；或執(zhí)行S3；或得到訓(xùn)練好的所述智能體；

S6，使用訓(xùn)練好的所述智能體控制一個(gè)路口中的所有交通信號(hào)燈。

優(yōu)選地，所述控制器根據(jù)局部觀測(cè)信息和上層策略，從多個(gè)子策略中選擇一個(gè)，包括：

控制器獲取與其對(duì)應(yīng)的局部觀測(cè)信息；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué)，未經(jīng)北京大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110020458.3/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

上一篇：基于高階矩匹配的多源蒸餾-遷移機(jī)械故障智能診斷方法
下一篇：一種吸油煙機(jī)及其清潔方法

同類專利

專利分類

G 物理

G08 信號(hào)裝置
G08G 交通控制系統(tǒng)
G08G1-00 道路車輛的交通控制系統(tǒng)
G08G1-005 .包括行人導(dǎo)引指示器的
G08G1-01 .檢測(cè)要統(tǒng)計(jì)或要控制的交通運(yùn)動(dòng)
G08G1-065 .計(jì)算一段道路或停車場(chǎng)上的車輛數(shù)的，即比較進(jìn)出車輛數(shù)
G08G1-07 .交通信號(hào)控制
G08G1-09 .給出可變交通指令的裝置

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】