[發明專利]一種基于分層強化學習的自動駕駛決策控制方法及系統有效
| 申請號: | 202010598169.7 | 申請日: | 2020-06-28 |
| 公開(公告)號: | CN111845741B | 公開(公告)日: | 2021-08-03 |
| 發明(設計)人: | 蔡英鳳;楊紹卿;滕成龍;李祎承;王海;孫曉強;陳小波 | 申請(專利權)人: | 江蘇大學 |
| 主分類號: | B60W30/12 | 分類號: | B60W30/12;B60W30/18;B60W10/20;B60W10/06;B60W10/18;B60W50/00;B60W60/00;G06N20/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 212013 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分層 強化 學習 自動 駕駛 決策 控制 方法 系統 | ||
1.一種基于分層強化學習的自動駕駛決策控制方法,其特征在于,包括設計動作層Agent和決策層Agent;所述動作層Agent選擇處理連續行為的基于策略梯度的強化學習算法,通過和道路環境信息交互訓練出正確的動作網絡;決策層Agent選擇處理離散行為的基于價值的強化學習算法,通過和車流交通狀態信息交互訓練出正確的決策網絡;
所述動作層Agent通過環境交互,獲取道路環境信息狀態量動作層Agent獲得狀態量后得出確定動作μt,再通過給該確定動作μt施加一個探索噪聲nt,合成具有一定探索性的動作at;智能車在執行動作at后得到環境的反饋量和rl;其中,反饋量為新的狀態量,rl為執行動作at后獲得的實時獎勵;通過改變任務,使得動作層Agent學會執行左換道、右換道和車道保持動作;
所述動作at包括方向盤轉角aδ,油門ac和剎車ab;其中油門動作ac和剎車動作ab合用一個動作aa表示,具體表達式為:
所述實時獎勵rl包括車道保持時的獎勵函數和換道時的獎勵函數;其中車道保持的獎勵函數設計為:
換道的獎勵函數設計為:
為智能車前進方向和道路之間的航向角誤差,error為當前智能車質心與道路中心點之間的橫向位置誤差,v為智能車的實際車速,vdes為期望車速,d為智能車距離前車的實際車距,ddes為智能車與前車之間的期望車速,dsafe為智能車與前車之間的安全車距,k1、k2、k3和k4為各項獎勵的前置系數,k5和k6為獎勵的前置系數,為左(右)車道與智能車前進方向的航向角誤差,dchang為左(右)車道與智能車質心處的距離;
所述決策層Agent通過和環境交互,獲取車流和交通狀況信息狀態量決策層Agent獲得狀態量后,選擇一個和當前狀態量對應的最具價值決策智能車在執行決策ut后得到環境的反饋量和rv;其中反饋量為新的狀態量,rv為執行決策ut后獲得的實時獎勵;通過不斷的學習,使得決策層Agent可以做出對應于當前車流和交通狀況最優的決策,然后智能車會做出與最優決策ut相對應的動作at;
所述實時獎勵rv包括針對車流信息的獎勵函數和交通信息的獎勵函數;其中車流信息的獎勵函數設計為:
交通信息的獎勵函數設計為:
2.根據權利要求1所述的一種基于分層強化學習的自動駕駛決策控制方法,其特征在于,還包括動作層Agent和決策層Agent的訓練方法:
在訓練初始階段對動作層Agent和決策層Agent進行初始化,首先在沒有復雜交通和較少車流的環境下對動作層Agent進行訓練,如果訓練失敗,再進行重復訓練,直至智能車能完成預定的目標后保存訓練好的動作層Agent;通過使用前先訓練好的動作層Agent,通過和車流-交通狀況信息交互進行進一步的決策層Agent的訓練,如果訓練失敗,再進行重復訓練,直至智能車能完成預定的目標后保存訓練好的決策層Agent。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇大學,未經江蘇大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010598169.7/1.html,轉載請聲明來源鉆瓜專利網。





