[發明專利]一種基于視覺的深度模仿強化學習駕駛策略訓練方法有效

申請號：	202011154491.7	申請日：	2020-10-26
公開（公告）號：	CN112232490B	公開（公告）日：	2023-06-20
發明（設計）人：	鄒啟杰;熊康;高兵;汪祖民;王東	申請（專利權）人：	大連大學
主分類號：	G06N3/0464	分類號：	G06N3/0464;G06N3/048;G06N3/082;G06N3/092;B60W60/00
代理公司：	大連智高專利事務所(特殊普通合伙) 21235	代理人：	畢進
地址：	116622 遼寧省***	國省代碼：	遼寧;21
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于視覺深度模仿強化學習駕駛策略訓練方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于視覺的深度模仿強化學習駕駛策略訓練方法，其特征在于，包括：

構建模仿學習網絡；

訓練所述模仿學習網絡；

對訓練完成的模仿學習網絡進行網絡拆分，獲得感知模塊；

構建DDPG網絡，獲得控制模塊；

通過所述感知模塊和所述控制模塊，完成深度模仿強化學習模型的搭建；

訓練所述深度模仿強化學習模型；

所述模仿學習網絡包括5個卷積層和四個全連接層，其中卷積層用于提取特征，全連接層用于轉向角、油門和剎車開度的預測；所述5個卷積層使用了5x5卷積核，其中還加入了最大池化層和Dropout層來優化網絡；所述5個卷積層與前三個全連接層均使用Relu激活函數，最后一個全連接層為輸出層，其包括三個全連接網絡，分別使用tanh，sigmoid和sigmoid激活函數，對應輸出的轉向、加速和剎車3個動作；

訓練所述模仿學習網絡，具體為：

利用仿真駕駛模擬器TORCS采集人為駕駛數據，選取其中性能極好的人為駕駛數據以及對應的駕駛員視角的車輛視頻幀作為樣本數據，人為操控指令作為標簽，所述人為操控指令包括轉向、油門和剎車；

利用DAgger算法訓練所述模仿學習網絡，所述DAgger算法是一種通過還原到在線學習狀態的迭代策略訓練算法，每次迭代中，學習器在所遇到過的所有狀態上重新訓練主要分類器；

對訓練完成的模仿學習網絡進行網絡拆分，獲得感知模塊，具體為：

對訓練完成的模仿學習網絡進行權值保存和網絡拆分，將前7層網絡拆分出來作為感知模塊并賦上對應的權值，所述前7層包括5個卷積層和2個全連接層；

所述感知模塊輸入的是第一視角駕駛圖像，輸出的是對應的特征矢量；后兩個全連接層網絡作為動作生成網絡，所述動作生成網絡作用是利用其權值對控制部分中的Actor網絡進行初始化，以保證整個模型的初始性能；

所述構建DDPG網絡，獲得控制模塊，具體為：

將DDPG網絡分為Actor網絡和Critic網絡；所述Actor網絡分為三層，輸入層接收來自感知模塊生成的特征，隱藏層為一層全連接層，輸出層由三個全連接網絡組成，分別對應輸出轉向、油門和剎車；

所述Actor網絡與所述動作生成網絡結構相同，并且利用動作生成網絡的權值對Actor網絡進行初始化；Critic網絡由全連接網絡組成，將來自感知模塊生成的環境特征和Actor網絡中的動作信息作為輸入，動作信息經一層全連接網絡處理后與特征向量合并，再經一層全連接網絡處理，最后由一層全連接網絡輸出三個動作的價值，提供給DDPG網絡學習；

訓練所述深度模仿強化學習模型，具體為：

深度模仿強化學習模型加入OU探索因子，設置符合任務的獎勵函數，在獎勵函數中對彎道處設置了規定速度，通過獎勵函數鼓勵汽車在彎道處減速到規定速度，在直路時加速；

OU探索公式為：

E?dx_t＝E(μ-x_t)dt+σdw_t?(1)

其中E表示過快恢復到平均值，μ表示平均值，σ表示波動的幅度，具體參數如表1所示；

表1.OU噪聲的參數

獎勵函數為

其中I為開關，滿足中括號中的條件數值為1，不滿足則為0；d₁表示的是汽車正前方車道線的距離，d₂是衡量汽車是否在車道中心的參數，越靠近車道中心值越趨近于0；v_x表示汽車的縱向速度，θ表示汽車與車道線的夾角；α和β分別是在彎道處的目標速度和懲罰折扣；當d₁小于10時，表示汽車正處在彎道處，當d₁小于40時，表示前方即將進入彎道，α設置為50，鼓勵汽車在彎道處減速到50，當d₁大于40表示汽車正在直路，鼓勵汽車加速。

2.根據權利要求1所述一種基于視覺的深度模仿強化學習駕駛策略訓練方法，其特征在于，所述模仿學習網絡輸入的是經過處理后大小為64x64像素的圖像，輸出的是汽車控制信息，包括預測轉向角、預測油門信息和預測剎車信息。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于大連大學，未經大連大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011154491.7/1.html，轉載請聲明來源鉆瓜專利網。