[發明專利]一種基于DQN的智能車多車道換道方法在審
| 申請號: | 201910574458.0 | 申請日: | 2019-06-28 |
| 公開(公告)號: | CN110363295A | 公開(公告)日: | 2019-10-22 |
| 發明(設計)人: | 胡江平;呂維;李詠章 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 溫利平 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡 智能車 多車道 換道 原始傳感器 駕駛 安全行為 不確定性 動作集合 高維數據 駕駛行為 無人駕駛 狀態集合 策略性 擬合 集合 回報 決策 學習 | ||
1.一種基于DQN的智能車多車道換道方法,其特征在于,包括以下步驟:
(1)、構建駕駛行為的MDP過程的狀態集合S,包括:智能車傳感器檢測的距離狀態、高級駕駛輔助系統ADAS的預警信息和智能車前向、左右兩側的車輛信息;
(2)、構建駕駛行為的MDP過程的動作集合A,包括:不采取行動,加速,減速,向左變更車道,向向右變更車道;
(3)、構建駕駛行為的MDP過程的回報集合R,包括:
rsum=rv(v)+rcol+rlc+rovertake
其中,v為智能車當前速度,vmax、vmin為智能車符合規則下的最大速度和最小速度,rv,max為最大速度下所對應的獎賞值,rcollision為對于車輛碰撞的懲罰值,rlanechange為對車輛進行換道的基礎懲罰,rovertake為智能車成功超越其他車輛的獎賞值;
(4)、訓練基于長短時記憶的深度神經網絡;
(4.1)、初始化深度神經網絡的權重,初始化深度神經網絡的輸入神經元個數對應著狀態集合S的維度,輸出神經元個數對應著動作集合A的維度;
(4.2)、對狀態集合S中的當前狀態st進行歸一化,得到深度神經網絡的輸入特征;
(4.3)、智能車在當前狀態st下,采用ε-greedy貪婪策略探索環境,并選取一定的動作at;
其中,表示以st作為輸入,深度神經網絡Q所得到的最大值所對應的動作at;
(4.4)、記錄當前狀態st下得到回報rt,并將智能車遷移到下一個狀態st+1;
(4.5)、智能車在當前狀態st+1下,重復步驟(4.2)~(4.4),并將各狀態值形成元組tuple(st,at,rt,st+1),將其存入至深度神經網絡的經驗回放記憶池D中;
(4.6)、當經驗回放記憶池D中的元組個數大于n個后,在經驗回放記憶池D中隨機采樣一個樣本tuple(si,ai,ri,si+1),i=1,2,…,n;
判斷采樣樣本是否為終止狀態,如果不是,則將采樣樣本的數據標簽記為:否則記為:ri;
(4.7)、計算誤差損失函數值;
其中,γ為折扣因子;
(4.8)、采用隨機梯度下降法SGD完成神經網絡的參數θi的更新;
(4.9)、重復步驟(4.6)~(4.8),直到重復迭代次數達到預設次數或深度神經網絡收斂,則迭迭代停止,得到訓練好的深度神經網絡;
(5)、利用訓練好的深度神經網絡完成智能車的最優策略選擇
將智能車的當前狀態進行歸一化后輸入至訓練好的深度神經網絡,深度神經網絡輸出該狀態下一個最優動作的選擇argmaxaQ(s,a)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910574458.0/1.html,轉載請聲明來源鉆瓜專利網。





