[發(fā)明專利]一種交通信號燈控制方法、設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202110659695.4 | 申請日: | 2021-06-11 |
| 公開(公告)號: | CN113299085A | 公開(公告)日: | 2021-08-24 |
| 發(fā)明(設(shè)計(jì))人: | 吳斌;王迅 | 申請(專利權(quán))人: | 昭通亮風(fēng)臺信息科技有限公司 |
| 主分類號: | G08G1/07 | 分類號: | G08G1/07;G06Q10/06;G06N3/00;G06N5/00;G06N3/04 |
| 代理公司: | 上海雍灝知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31368 | 代理人: | 沈汶波 |
| 地址: | 657100 云*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 交通 信號燈 控制 方法 設(shè)備 存儲 介質(zhì) | ||
本發(fā)明提供了一種交通信號燈控制方法、設(shè)備及存儲介質(zhì),涉及智能交通控制領(lǐng)域,包括以下:隨機(jī)初始化DDPG模型中的Actor?Critic網(wǎng)絡(luò)、記憶庫以及隨機(jī)噪聲;獲取車流數(shù)據(jù),采用智能體采集各個交叉口的路口狀態(tài)信息,基于路口狀態(tài)信息生成的初始策略;采集各個車道的總隊(duì)列長度、總延遲、等待總時長以及吞吐量,計(jì)算用于初始動作的獎勵;智能體執(zhí)行初始動作更新路口狀態(tài)信息,以生成樣本數(shù)據(jù);在記憶庫中將樣本數(shù)據(jù)以和樹形式存儲;從記憶庫中隨機(jī)抽取樣本數(shù)據(jù)對Actor?Critic網(wǎng)絡(luò)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,迭代優(yōu)化,直至生成用于智能體的最優(yōu)控制策略進(jìn)行交通信號燈控制,用于解決現(xiàn)有缺乏一種可適用于多交叉口的交通信號控制方法的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及智能交通控制領(lǐng)域,尤其涉及一種交通信號燈控制方法、設(shè)備及存儲介質(zhì)。
背景技術(shù)
隨著全球汽車保有量的持續(xù)增長,交通擁堵問題已成為全球各大城市的難點(diǎn)和熱點(diǎn)問題。交通擁堵影響城市經(jīng)濟(jì)發(fā)展,造成資源浪費(fèi),還會導(dǎo)致嚴(yán)重的環(huán)境污染。因此,交通信號最優(yōu)控制系統(tǒng)被廣泛地研究以減少擁塞。傳統(tǒng)的交通信號控制通常是基于歷史車流量預(yù)設(shè)的固定配時方案,或者基于當(dāng)前車流狀態(tài)調(diào)整交通信號時長,例如綠信比、周期、相位差優(yōu)化技術(shù)。
現(xiàn)有的如Webster方法假設(shè)車輛均勻到達(dá)的情況下,通過數(shù)學(xué)模型計(jì)算最佳的單路口周期長度和相位配時占比,以最小化車輛通過路口的行駛時間。SCOOT自適應(yīng)控制系統(tǒng),根據(jù)交通流量的改變,周期性調(diào)整信號燈每個相位的綠燈時長,從而減少車輛在路口的平均等候時間。但是SCOOT系統(tǒng)中的配時方案基于數(shù)學(xué)模型,當(dāng)交通條件復(fù)雜度增高時,交通模型的建立將變得困難。與SCOOT系統(tǒng)不同,澳大利亞的SCATS系統(tǒng)依據(jù)實(shí)際交通狀況從事先制定好的配時方案中選擇最佳配時,由于方案數(shù)量有限,系統(tǒng)的可靠性差。因此需要一種可適用于多交叉口的交通信號控制方法以應(yīng)對日益嚴(yán)重的交通擁堵問題。
發(fā)明內(nèi)容
為了克服上述技術(shù)缺陷,本發(fā)明的目的在于提供一種交通信號燈控制方法,用于解決現(xiàn)有缺乏一種可適用于多交叉口的交通信號控制方法的問題。
本發(fā)明公開了一種交通信號燈控制方法,包括以下:
隨機(jī)初始化DDPG模型中的Actor-Critic網(wǎng)絡(luò)、記憶庫以及隨機(jī)噪聲;
獲取車流數(shù)據(jù),采用智能體采集各個交叉口的路口狀態(tài)信息,其中,每一智能體對應(yīng)所述交叉口下一車道,所述路口狀態(tài)信息包括各個車道的隊(duì)列長度和車頭時距;
基于所述路口狀態(tài)信息采用帶隨機(jī)噪聲的Actor-Critic網(wǎng)絡(luò)生成的初始策略;
采集各個車道的總隊(duì)列長度、總延遲、等待總時長以及吞吐量,根據(jù)所述總隊(duì)列長度、總延遲、等待總時長以及吞吐量計(jì)算用于所述初始動作的獎勵;
所述智能體執(zhí)行所述初始動作更新所述路口狀態(tài)信息,根據(jù)所述路口狀態(tài)信息、所述初始策略、所述獎勵、更新后的路口狀態(tài)信息生成樣本數(shù)據(jù);
在記憶庫中將所述樣本數(shù)據(jù)以和樹形式存儲;
從所述記憶庫中隨機(jī)抽取樣本數(shù)據(jù)對Actor-Critic網(wǎng)絡(luò)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,迭代優(yōu)化,直至生成用于智能體的最優(yōu)控制策略進(jìn)行交通信號燈控制。
優(yōu)選地,所述在記憶庫中將所述樣本數(shù)據(jù)以和樹形式存儲,包括以下:
獲取所述樣本數(shù)據(jù)的時序差分誤差,并將所述時序差分誤差的絕對值作為和樹中每個節(jié)點(diǎn)的存儲值。
優(yōu)選地,從所述記憶庫中隨機(jī)抽取樣本數(shù)據(jù),包括以下:
根據(jù)所述記憶庫中的和樹獲取存儲值總和;
根據(jù)所述存儲值總和對樣本數(shù)據(jù)抽取數(shù)量進(jìn)行區(qū)間劃分,獲取多個區(qū)間;
在各個所述區(qū)間內(nèi)隨機(jī)抽取一存儲值,并根據(jù)隨機(jī)抽取的存儲值進(jìn)行節(jié)點(diǎn)遍歷,獲得與所述級抽取的存儲值對應(yīng)的樣本數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昭通亮風(fēng)臺信息科技有限公司,未經(jīng)昭通亮風(fēng)臺信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110659695.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





