[發明專利]一種基于時空數據強化學習的自動駕駛速度控制框架有效
| 申請號: | 202111043124.4 | 申請日: | 2021-09-07 |
| 公開(公告)號: | CN113741464B | 公開(公告)日: | 2022-10-21 |
| 發明(設計)人: | 許志;劉順程;夏宇陽;陳旭;刁宇鵬;蘇涵;鄭凱;曾凱 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 成都眾恒智合專利代理事務所(普通合伙) 51239 | 代理人: | 王育信 |
| 地址: | 610000 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 時空 數據 強化 學習 自動 駕駛 速度 控制 框架 | ||
本發明公開了一種基于時空數據強化學習的自動駕駛速度控制框架,主要解決自動駕駛汽車難以及時對較遠車輛的急劇變速行為做出反應的延時性問題。該控制框架包括離線訓練:利用現實生活中的車輛駕駛數據對自動駕駛車輛的速度決策進行學習;在線模擬:使用已經訓練好的網絡來檢測自動駕駛車輛在特定場景下的表現。采用本發明的速度控制框架的自動駕駛車輛能夠在復雜的交通環境中有良好的表現,本發明綜合考慮了交通安全性,駕駛員舒適度和交通效率,使用了長短期記憶神經網絡(LSTM),能夠讓自動駕駛汽車在進行速度決策時不只是考慮當前時刻的環境數據,可以同時考慮多個歷史時刻的環境數據,讓自動駕駛車輛能夠在遇到突然的變速行為有更好的表現。
技術領域
本發明屬于自動駕駛技術領域,具體地說,是涉及一種基于時空數據強化學習的自動駕駛速度控制框架。
背景技術
隨著城市化的快速發展,許多城市都在遭受不同程度的交通擁堵。經過調查發現,大部分的交通擁堵屬于“幽靈”式堵車,導致人們出行時間嚴重延長、燃料浪費以及空氣污染等。而這種“幽靈”式堵車經常發生高密度交通中,沒有任何交通事故或者道路施工等明顯跡象,其根本原因是駕駛員惡劣的駕駛行為(如急剎車、急加速)所產生的連鎖效應在車流中傳遞,導致交通嚴重的延誤甚至堵車。
對于自動駕駛車輛的單車道速度控制,可以分為基于模仿的控制框架與基于跟車行駛的控制框架。其中,基于模仿的控制框架主要使用機器學習的方法進行軌跡預測,搭建一個機器學習的框架對人類的駕駛行為進行學習,通過學習周圍環境特征與周圍車輛的行為對每一時刻的變速行為進行控制。這一類方法主要使用循環神經網絡(RNN)來學習車輛運動行為,通過學習前一段時間內當前車輛與周圍車輛的交互特征來決定下一時刻的變速行為。其改進方法可以使用長短期記憶神經網絡(LSTM)來提升車輛在復雜情況下的表現,更好地預測自動駕駛車輛的未來軌跡。但是循環神經網絡(RNN)與長短期記憶神經網絡(LSTM)對于不同時刻的車輛軌跡數據都是共享權重的,然而,不同時刻或者不同周圍車輛對當前車輛行為的影響是不同的。例如,當前車輛可能更關注周圍車輛前一時刻的狀態,或者在一些突發情況下,當前車輛應該更關注某一車輛突然的速度變化,從而更好的對當前時刻的變速行為進行控制。所以,對于不同時刻不同周圍車輛的狀態應該分配不同權重,于是帶有注意力機制 (Attention)的長短期記憶神經網絡模型出現。但是基于模仿的速度控制模型存在著一個重要的限制,因為人類不可避免的會產生一些不合理的駕駛行為,一份比較差的學習數據將會嚴重影響自動駕駛車輛的穩定性與安全性。對于基于跟車行駛的速度框架,傳統方法是使用基于模型預測控制的自適應巡航控制框架(MPC-ACC)來決定車輛的速度,利用周圍環境的特征計算出最合理的跟車距離與跟車速度,這種方法在比較簡單的環境中能夠有較好的表現,但是對于現實生活中的復雜場景來說,該模型存在明顯的局限性,該模型難以考慮到所有的環境特征,通過數學公式來計算車輛某一時刻的行為難以適用于復雜的交通環境。于是,有人提出使用深度強化學習的方法來控制車輛某一時刻的行為,最具有代表性的有深度確定性策略梯度算法(DDPG),設計一個綜合考慮交通效率,交通安全與駕駛員舒適性的獎勵機制,將現實數據輸入模型,由強化學習智能體(RL agent)來對車輛速度行為進行探索,通過模型的反饋結果來對智能體的行為進行指導與改進,輸出獎勵值最高的變速決策。
發明內容
本發明的目的在于提供一種基于時空數據強化學習的自動駕駛速度控制框架,主要解決自動駕駛汽車難以及時對較遠車輛的急劇變速行為做出反應的延時性問題。
為實現上述目的,本發明采用的技術方案如下:
一種基于時空數據強化學習的自動駕駛速度控制框架,包括:
離線訓練:利用現實生活中的車輛駕駛數據對自動駕駛車輛的速度決策進行學習;
在線模擬:使用已經訓練好的網絡來檢測自動駕駛車輛在特定場景下的表現;
所述離線訓練包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111043124.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種齒輪軸承組裝機
- 下一篇:一種外科護理用藥劑震動器
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





