[發明專利]交通信號控制方法、系統及介質在審
| 申請號: | 201911311519.0 | 申請日: | 2019-12-18 |
| 公開(公告)號: | CN111091710A | 公開(公告)日: | 2020-05-01 |
| 發明(設計)人: | 薛貴榮;徐凱 | 申請(專利權)人: | 上海天壤智能科技有限公司 |
| 主分類號: | G08G1/01 | 分類號: | G08G1/01 |
| 代理公司: | 上海段和段律師事務所 31334 | 代理人: | 李佳俊;郭國中 |
| 地址: | 201100 上海市閔行*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 交通信號 控制 方法 系統 介質 | ||
本發明提供了一種交通信號控制方法,包括:數據生成步驟:生成專家數據;網絡結構搭建步驟:構建行為策略評價網絡結構;評價方法構造步驟:構造行為策略評價方法;網絡損失函數構造步驟:構造行為策略損失函數;獲取步驟:獲取到行為策略信息;評價網絡損失函數構造步驟:構造評價網絡損失函數;時序差分值獲取步驟:根據評價網絡損失函數,計算得到時序差分值;行為更新步驟:根據時序差分值,對行為策略進行更新;預測結果計算步驟:得到預測結果并運用到交通中。本發明有效降低系統在狀態/行為空間中的探索成本;提高了收斂速度和預測控制表現。
技術領域
本發明涉及計算機軟件和交通領域,具體地,涉及一種交通信號控制方法、系統及介質。尤其地,涉及一種基于專家數據和行為策略評價框架的交通信號控制方法。
背景技術
交通阻塞通行擁擠問題已經成為日常影響每個人生活的主要問題之一,人們往往因此要花費大量的通行時間在道路上。緩解這一問題的有效方法是開發一種高效的交通信號燈控制系統。
隨著計算資源和機器學習算法的發展,越來越多的研究者們開始用強化學習(Reinforcement Learning,RL)的算法來研究交通信號的控制方法。在交通信號控制中,強化學習是通過智能體與環境的交互來學習一種優化的行為策略,并使此策略能夠符合現實交通信號控制的需求。目前,關于這方面的強化學習算法已經有很多被提出來了。Van和HuaWei用Deep Q Network來搜索最優策略,2019年Tianshu Chu用行為策略評價框架(Actor-Critic)和LSTM網絡結構提高并穩定了預測效果。雖然這些方法都在交通信號控制方面取得了一定成果,但是他們也面臨著強化學習中的一個重大挑戰,即在大探索空間中的收斂慢表現差的問題。實際上,為了減少在大空間中不必要的探索,可以從人本身的學習過程中獲得借鑒。當人們試圖掌握一項技能時,他們往往會從專家那獲取知識,從而加速學習過程。類比到交通信號控制的方法模型中,我們也同樣可以通過傳入優質的從專家處得來的訓練樣本來促使方法可以更好的學習如何實現交通信號的控制。但是這樣會面臨兩個難點:(1)在交通信號控制方面所謂的專家知識是什么?(2)這樣的專家知識如何優化強化學習算法的探索過程?
對于第一個問題,我們通過交通控制中的經典方法來獲取。在現有的交通專家們提出的方法中,有一個自組織交通信號燈控制方法(Self-Organizing Traffic Lightcontrol,SOTL),SOTL是一個可以實現根據實時交通的動態變化自動調節的交通信號控制方法。這種交通控制方法往往建立在交通模型假設的基礎上的,能夠應用的交通場景較少。但是他們能夠作為一個基準,作為一種專家知識用來優化深度學習的方法。
對于第二個問題,為了利用這種專家知識,我們將其處理為專家(Demonstrations)數據,類似于在決策任務中的專家策略。近期,已經有很多基于專家數據的強化學習算法被提出,結果表明這種方式可以有效處理強化學習的探索成本問題。ToddHester等人用基于專家數據的深度Q-learning算法,通過修改損失函數,從而在較小專家數據集下加速了算法對Atari游戲的學習過程,擴大了機器人控制的應用范圍。所以對于本文中的問題,由傳統經典方法產生的交通狀態和對應的信號策略可以作為專家數據,并將其整合到我們的方法中提高預測表現。
綜上所述,雖然眾多研究人員將強化學習和專家數據方法在多個領域進行了研究性探索,并取得了一定的成績。但在交通信號控制方面,目前還沒有將專家數據和行為策略評價框架結合在一起來解決交通信號控制這一具有挑戰且對人們日常生活具有重要影響的問題。
專利文獻CN106128122B(申請號:201610522193.6)公開了一種智能交通信號燈,包括交通信號燈和與交通信號燈相連的預測裝置,所述預測裝置包括依次連接的采集模塊、數據預處理模塊、數據分類模塊、平穩性檢驗模塊、相關系數計算模塊、閾值設定模塊、時空相關系數矩陣生成模塊、歷史相關系數矩陣生成模塊、預測因子選取模塊和預測模型構造模塊。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海天壤智能科技有限公司,未經上海天壤智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911311519.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自動化擺動式搬運機
- 下一篇:一種抗泥型聚羧酸系減水劑及其制備方法和應用





