[發明專利]基于深度強化學習的可變車道及交通信號協同控制方法有效
| 申請號: | 202010784747.6 | 申請日: | 2020-08-06 |
| 公開(公告)號: | CN111915894B | 公開(公告)日: | 2021-07-27 |
| 發明(設計)人: | 丁川;聶午陽;鹿應榮;魯光泉 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G08G1/01 | 分類號: | G08G1/01;G08G1/08;G06N3/08 |
| 代理公司: | 北京慕達星云知識產權代理事務所(特殊普通合伙) 11465 | 代理人: | 曹鵬飛 |
| 地址: | 100000*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 可變 車道 交通信號 協同 控制 方法 | ||
本發明公開了一種基于深度強化學習的可變車道及交通信號協同控制方法,包括采集交叉口狀態觀測值,包含車輛數據、信號燈數據、可變車道數據,并進行預處理后輸入至神經網絡;神經網絡基于強化學習不斷訓練更新,直至模型收斂;基于訓練好的神經網絡進行最優控制,輸出最優控制策略。本發明實現了可變車道和交通信號的耦合控制,并且可以根據交叉口區域的實時狀態,進行實時的最優控制,不需要人工作業,可變車道的切換和交通信號的控制完全根據車流數據進行自適應調節,并且沒有造成車輛二次停車,優化了信號控制交叉口的時空間資源利用效率。
技術領域
本發明涉及道路交通控制技術領域,更具體的說是涉及車路協同環境下一種信號控制交叉口可變車道和交通信號的協同自適應最優控制方法。
背景技術
信號控制交叉口往往是城市道路交通擁堵發生的地段,對城市交通整體運行效果有巨大影響。交通信號燈可以從時間層面保證車輛有序通過交叉口,可變車道可以從空間層面保證不同通行方向的車輛高效地利用道路空間資源。
雖然交通信號燈和可變車道的設置都可以在一定程度上確保交通良好有序運行,但是它們二者之間往往缺少緊密的協調。由于交叉口是一個車輛連續通行的動態場景,所以交通信號燈的控制和可變車道的設置互相之間也會產生很大的影響。在當今的城市中,交通信號燈往往是依據人工經驗預先設置好,而可變車道的設置往往是依據歷史車輛通行數據。二者并沒有很好地耦合優化。另外,交通信號和可變車道其中一者的優化必將會對另一者產生影響,若另一者不相應進行改變,可能甚至會降低交叉口的通行效益。
因此,如何提供一種基于深度強化學習的可變車道及交通信號協同控制方法是本領域技術人員亟需解決的問題。
發明內容
有鑒于此,本發明提供了一種基于深度強化學習的可變車道及交通信號協同控制方法,實現了可變車道和交通信號的耦合控制,優化了信號控制交叉口的時空間資源利用效率。
為了實現上述目的,本發明采用如下技術方案:
一種基于深度強化學習的可變車道及交通信號協同控制方法,包括:
步驟1:采集交叉口狀態觀測值,包含車輛數據、信號燈數據和可變車道數據,并進行預處理后輸入至神經網絡;
步驟2:所述神經網絡基于強化學習不斷更新,直至模型收斂,其中,目標Q值的更新公式為:
Q(st,at)←Q(st,at)+α(rt+γ·maxQ(s',a')-Q(st,at)) (1)
式中,st為t時刻的交叉口狀態觀測值,at為t時刻采取的控制動作,Q(st,at)為在狀態st下采取動作at得到的期望未來獎勵總和,簡稱為Q值,maxQ(s',a')為t+1時刻,所能取得的最大Q值,rt為t時刻的獎勵函數,γ為折扣因子,α為學習率;
步驟3:基于訓練好的所述神經網絡進行最優控制:
式中,π*表示最優策略,s表示某一時刻交叉口狀態觀測值,a表示s時刻采取的控制動作,A表示所有控制動作,S表示所有交叉口狀態觀測值。
進一步,步驟1具體包括以下步驟:
步驟11:所述車輛數據包括檢測區域內車輛的速度、距離交叉口的位置和通行方向,預處理過程為:
將每個進口道長度L的檢測區域劃分為m個長度為p的小方格,每個小方格內按照車輛的通行方向分別計算小方格內車輛的車輛數量和平均速度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010784747.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種村鎮污水過渡環型生態處理系統及方法
- 下一篇:一種攝像模組





