[發明專利]一種基于DQN的車輛自動駕駛路徑規劃的方法及裝置有效
| 申請號: | 201910927783.0 | 申請日: | 2019-09-27 |
| 公開(公告)號: | CN110646009B | 公開(公告)日: | 2022-03-01 |
| 發明(設計)人: | 王魯晗;王成于;路兆銘;溫向明;傅彬;王剛 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G01C21/34 | 分類號: | G01C21/34;G06N3/04;G06N3/08 |
| 代理公司: | 北京智信四方知識產權代理有限公司 11519 | 代理人: | 呂雁葭;宋海龍 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 dqn 車輛 自動 駕駛 路徑 規劃 方法 裝置 | ||
1.一種基于DQN的車輛自動駕駛路徑規劃的方法,其特征在于,包括:
根據車輛的歷史數據以及車輛的預設軌跡,訓練DQN模型;獲取當前時刻的車輛位置數據以及車輛的預設軌跡;
根據所述車輛位置數據以及所述預設軌跡,利用訓練好的DQN模型獲取所述車輛的當前期望行駛方向,所述DQN模型在訓練時,車輛的即時獎勵是基于車輛的預設軌跡設置的,當所述車輛沿著所述預設軌跡方向行駛的速度越大,或者所述車輛與所述預設軌跡之間的距離越小時,所述車輛的即時獎勵越高;
按照所述當前期望行駛方向,控制所述車輛的行駛方向;
所述根據車輛的歷史數據以及所述預設軌跡,訓練所述DQN模型,包括:
A:初始化所述DQN模型中當前Q網絡的參數θ和目標Q′網絡的參數θ';
B:根據所述車輛歷史數據中t時刻的狀態st,獲取所述車輛的轉移數據<st,at,rt,st+1>,其中,at代表所述車輛在所述狀態st下執行的動作;st+1代表所述車輛t+1時刻的狀態;rt代表所述車輛在所述狀態st下執行所述動作at轉移到所述狀態st+1時所獲取的即時獎勵;
C:將所述轉移數據<st,at,rt,st+1>存儲于集合D中;
D:基于所述集合D,更新所述參數θ;
E:當滿足第一預設條件,根據更新參數θ,更新所述參數θ';
F:重復執行所述步驟B-E;
G:當滿足第二預設條件,確定所述DQN模型;
所述當前Q網絡和所述目標Q′網絡為卷積神經網絡,所述卷積神經網絡依次包括第一卷積層、第二卷積層、第三卷積層、第一全連接層和第二全連接層;
所述根據所述車輛歷史數據中t時刻的狀態st,獲取所述車輛的轉移數據<st,at,rt,st+1>,包括:
將所述狀態st輸入至所述當前Q網絡,獲取所述車輛預設動作集中所有動作對應的Qt值;
基于所述Qt值,確定所述車輛在所述狀態st下要執行的動作at;
計算所述即時獎勵rt;
所述即時獎勵rt表示為:
其中,α表示t時刻所述車輛行駛方向與道路軸線的夾角,v(t)代表t時刻所述車輛的行駛速度,vmax為所述車輛行駛的最高速度,dtrack(t)為所述車輛與所述預設軌跡的最短距離,droad代表所述道路的寬度,η為調節參數。
2.根據權利要求1所述的方法,其特征在于,所述根據所述車輛位置數據以及所述預設軌跡,利用訓練好的DQN模型獲取所述車輛的當前期望行駛方向,包括:
根據所述車輛位置數據,獲取所述車輛當前狀態;
根據所述預設軌跡,將所述車輛當前狀態輸入至所述DQN模型,獲取所述車輛預設動作集中所有動作對應的Q值;
選取最大的Q值所對應的動作為所述車輛的當前期望行駛方向。
3.根據權利要求1所述的方法,其特征在于,所述當前Q網絡和所述目標Q′網絡為卷積神經網絡,所述卷積神經網絡依次包括第一卷積層、第二卷積層、第三卷積層、第一全連接層和第二全連接層。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910927783.0/1.html,轉載請聲明來源鉆瓜專利網。





