[發明專利]基于深度強化學習的車輛硬件在環仿真訓練系統及方法有效
| 申請號: | 202110054199.6 | 申請日: | 2021-01-15 |
| 公開(公告)號: | CN112906126B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 余貴珍;廖亞萍;周彬;李涵;陳冠宏 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F30/15 | 分類號: | G06F30/15;G06F18/214;G06N3/04;B60W50/00 |
| 代理公司: | 北京航智知識產權代理事務所(普通合伙) 11668 | 代理人: | 黃川;史繼穎 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 車輛 硬件 仿真 訓練 系統 方法 | ||
1.一種利用基于深度強化學習的車輛運動規劃硬件在環仿真訓練系統的訓練方法,所述車輛運動規劃硬件在環仿真訓練系統包括:
虛擬仿真單元和實車控制器,所述虛擬仿真單元包括仿真車輛模塊、仿真控制模塊、實車軌跡數據庫、仿真傳感器模塊、重置接口以及啟停接口;
所述仿真車輛模塊包括運用虛擬引擎軟件通過物理部件繪制、組裝而成且與實車車型機械原理相匹配的虛擬車輛,所述虛擬車輛包括由所述仿真控制模塊控制的虛擬本車車輛和由所述實車軌跡數據庫中的實車軌跡數據控制的虛擬環境車輛;
所述仿真傳感器模塊包括虛擬傳感器和虛擬傳感器數據輸出接口;所述虛擬傳感器用于采集道路環境地圖數據、虛擬環境車輛運行數據以及虛擬本車車輛運行數據;
所述重置接口用于接收所述實車控制器的重置指令,以進行所述虛擬仿真單元的環境重置,所述環境重置指結束當前所述虛擬仿真單元中所有模塊的運行狀態,回歸重置指令所要求的狀態;
所述啟停接口用于接收所述實車控制器的啟動指令和停止指令,以進行所述虛擬仿真單元的環境啟動和停止,所述環境啟動和停止指控制所述虛擬仿真單元各模塊的啟動工作和停止工作;
所述實車控制器包括深度網絡學習模塊、虛擬傳感器數據輸入接口、數據處理模塊以及動作輸出接口,所述虛擬傳感器數據輸入接口與所述虛擬傳感器數據輸出接口連接;所述數據處理模塊用于對從所述虛擬傳感器數據輸入接口接收的數據進行處理,并將處理后數據發送至所述深度網絡學習模塊,計算輸出控制指令;
所述仿真控制模塊包括控制指令接收接口,其與所述動作輸出接口連接,以接收所述控制指令;
該訓練方法包括如下步驟:
S1:在所述實車控制器的深度網絡學習模塊中植入深度強化學習算法,并與所述虛擬仿真單元進行通信連接;
S2:初始化所述深度強化學習算法的參數,同時通過啟停接口向所述虛擬仿真單元發送啟動指令,啟動所述虛擬仿真單元,使得所述虛擬仿真單元各模塊處于待工作狀態;
S3:進入所述深度強化學習算法的第j回合訓練,所述實車控制器通過重置接口向所述虛擬仿真單元發送重置指令,控制所述仿真車輛模塊進行虛擬車輛運動狀態重置,其中將所述虛擬本車車輛的運動狀態重置為靜止狀態,將所述虛擬環境車輛的運行狀態重置為實車軌跡數據Ψ的第i個狀態點對應的狀態,i=1,2,...m,實車軌跡數據Ψ是從實車軌跡數據庫中隨機篩選出來的,Ψ=1,2,...,n;所述實車軌跡數據庫中存儲有n條實車軌跡數據,每條實車軌跡數據由m個狀態點按照時間序列排列組成;
S4:所述仿真傳感器模塊通過虛擬傳感器數據輸出接口向所述實車控制器發送時刻T對應的數據集合ST,包括時刻T對應的道路環境地圖數據、虛擬環境車輛運行狀態數據以及虛擬本車車輛運行狀態數據;
S5:利用所述數據處理模塊對數據集合ST進行處理,獲取所述深度強化學習算法所需的狀態數組S'T;
S6:將狀態數組S'T輸入所述深度強化學習算法,計算輸出控制指令aT,并將控制指令aT發送至所述仿真控制模塊;
S7:所述仿真控制模塊根據控制指令aT控制所述虛擬本車車輛運行Δt時間后,所述仿真傳感器模塊再次向所述實車控制器發送時刻T+Δt對應的數據集合ST+Δt,此時虛擬環境車輛運行狀態是實車軌跡數據Ψ的第i+1個狀態點對應的狀態,之后進一步獲取時刻T+Δt對應的狀態數組S'T+Δt;
S8:基于狀態數組S'T+Δt獲取時刻T+Δt的碰撞時間TTC、車頭時距值THW、車輛加速度變化量jerk值,進而輸入所述深度強化學習算法的獎勵函數r中,計算出訓練回合j的獎勵值rT;
S9:將{S'T,aT,S'T+Δt,rT}作為一個樣本存儲至所述深度強化學習算法的樣本經驗池中,判斷樣本經驗池中的樣本個數是否達到h;如果是,則利用經驗優先和重要性采樣方法篩選出Δh個樣本,并對所述深度強化學習算法進行參數優化;否則直接進入步驟S10;
S10:判斷所述虛擬本車車輛與所述虛擬環境車輛是否發生碰撞,或者所述虛擬環境車輛的運行狀態是否已經為實車軌跡數據Ψ的第m個狀態點對應的狀態,若達到其中一個判斷條件,則訓練回合j結束,進入步驟S11;否則,設置ST=ST+1,i=i+1,進入步驟S5;
S11:判斷訓練回合數j是否滿足達到最大回合數;如果否,則進入步驟S3,開始第j=j+1回合訓練;如果是,則所述實車控制器通過啟停接口向虛擬仿真單元發送停止指令,關閉虛擬仿真單元各模塊工作狀態,訓練結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110054199.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種協調電力系統穩定器與二級電壓控制器參數優化方法
- 下一篇:一種負壓料罐





