[發明專利]一種基于分層強化學習的自動駕駛決策控制方法及系統有效
| 申請號: | 202010598169.7 | 申請日: | 2020-06-28 |
| 公開(公告)號: | CN111845741B | 公開(公告)日: | 2021-08-03 |
| 發明(設計)人: | 蔡英鳳;楊紹卿;滕成龍;李祎承;王海;孫曉強;陳小波 | 申請(專利權)人: | 江蘇大學 |
| 主分類號: | B60W30/12 | 分類號: | B60W30/12;B60W30/18;B60W10/20;B60W10/06;B60W10/18;B60W50/00;B60W60/00;G06N20/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 212013 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分層 強化 學習 自動 駕駛 決策 控制 方法 系統 | ||
本發明公開了一種基于分層強化學習的自動駕駛決策控制方法及系統,包括動作層Agent和決策層Agent。動作層Agent為處理連續行為的基于策略梯度的強化學習算法,通過和道路環境信息交互訓練出正確的動作網絡;決策層Agent選擇處理離散行為的基于價值的強化學習算法,通過和車流交通狀態信息交互訓練出正確的決策網絡。通過先訓練動作層Agent,在基于已經訓練完成的動作層Agent的基礎上訓練決策層Agent,使兩次訓練任務明確,提高了學習效率。本發明避免了急加速和急減速的情況發生,改善了整車舒適性。
技術領域
本發明屬于智能車自動駕駛領域,涉及一種基于分層強化學習的自動駕駛決策控制方法系統。
背景技術
強化學習為一種快速發展的機器學習方法,強調基于當前的環境狀態,選擇一個動作使得該動作能夠取得最大化的預期獎勵。它是一種試錯的學習方式,學習過程中通過獎勵的刺激,逐漸能夠做出最大化預期獎勵的動作。其中,無模型的強化學習方式,由于其不需要建模,漸進性能好而備受關注。DDPG和DQN算法分別為兩種不同的無模型強化學習方法,DDPG為一種基于策略梯度的強化學習算法用來處理連續行為,DQN為一種基于價值的強化學習算法用來處理離散行為。
傳統的自動駕駛控制方法很難兼顧復雜的環境而做出正確的決策和動作,已經漸漸不能滿足自動駕駛的決策和控制要求。隨著人工智能算法的發展以及車載硬件的不斷提高,解決該問題的直接方法為通過強化學習的方式,訓練一組端到端的神經網絡用來映射當前的環境狀態和動作決策輸出。其中,關于自動駕駛的動作輸出包括方向盤、油門和剎車均為連續的動作量,比較適合選擇處理連續行為的強化學習算法;自動駕駛的決策輸出包括左換道、右換道和車道保持均為離散的、單一的行為,比較適合選擇處理離散行為的強化學習算法。
發明內容
基于上述背景,本發明提出了一種基于DDPG動作控制和DQN決策的分層強化學習自動駕駛決策控制方法及系統,通過先訓練動作再訓練決策的方式,提高了訓練效率。將智能車所在的環境分為道路環境信息和車流交通狀態信息,通過和道路環境信息交互來訓練動作層Agent,通過和車流交通狀態信息交互來訓練決策層Agent,使得智能車能復雜場景的環境中做出正確的動作和決策。
本發明提出的一種基于分層強化學習的自動駕駛決策控制方法,包括設計兩部分:動作層Agent和決策層Agent。動作層Agent選擇處理連續行為的基于策略梯度的強化學習算法,通過和道路環境信息交互訓練出正確的動作網絡;決策層Agent選擇處理離散行為的基于價值的強化學習算法,通過和車流交通狀態信息交互訓練出正確的決策網絡。具體包括一下內容:
動作層Agent通過環境交互,獲取道路環境信息動作層Agent獲得狀態量st后得出一個確定動作μt,再通過給該確定動作μt一個探索噪聲nt,合成一個具有一定探索性的動作at。智能車在執行動作at后會得到環境的反饋量和rl。反饋量為新的狀態量,rl為執行動作at后獲得的獎勵。通過改變任務,使得動作層Agent學會執行左換道、右換道和車道保持動作。
進一步,所述動作at包括方向盤轉角aδ,油門ac和剎車ab。其中油門動作ac和剎車動作ab用一個動作aa表示,具體表達式為:
進一步,所述實時獎勵rl包括車道保持時的獎勵函數和換道時的獎勵函數。車道保持的獎勵函數設計為:
換道的獎勵函數設計為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇大學,未經江蘇大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010598169.7/2.html,轉載請聲明來源鉆瓜專利網。





