[發明專利]基于DQN神經網絡和高精度定位的駕駛行為優化方法在審
| 申請號: | 202010043096.5 | 申請日: | 2020-01-15 |
| 公開(公告)號: | CN111275249A | 公開(公告)日: | 2020-06-12 |
| 發明(設計)人: | 張彥君;白勍;王成俊 | 申請(專利權)人: | 吉利汽車研究院(寧波)有限公司;浙江吉利控股集團有限公司 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06N3/04;G06N3/08 |
| 代理公司: | 北京智匯東方知識產權代理事務所(普通合伙) 11391 | 代理人: | 周禮濤 |
| 地址: | 315336 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 dqn 神經網絡 高精度 定位 駕駛 行為 優化 方法 | ||
1.一種基于DQN神經網絡和高精度定位的駕駛行為優化方法,其特征在于,包括以下步驟:
獲取無人車駕駛時觀測環境所得到的數據,所述數據至少包括:攝像頭圖像和高精度定位數據;
對獲取的所述數據進行預處理,以過濾所述數據中與車輛駕駛行為無關的噪音;
基于DQN神經網絡,對預處理后的一部分所述數據利用卷積神經網絡進行處理,處理后同另一部分所述數據使用全連接網絡進行拼接,以確定所述DQN神經網絡架構;
根據確定的所述DQN神經網絡進行所述DQN神經網絡訓練和計算,得出車輛的目標獎勵懲罰值,選取所述目標獎勵懲罰值最大的動作并執行。
2.根據權利要求1所述的基于DQN神經網絡和高精度定位的駕駛行為優化方法,其特征在于,
所述數據還包括:CAN總線數據、激光雷達采集的視屏和點云數據以及地圖API提供的天氣和交通信息的數據。
3.根據權利要求1所述的基于DQN神經網絡和高精度定位的駕駛行為優化方法,其特征在于,
所述高精度定位數據由全球定位系統、慣性測量單元和載波相位差分技術相結合得出。
4.根據權利要求1所述的基于DQN神經網絡和高精度定位的駕駛行為優化方法,其特征在于,所述的基于DQN神經網絡,對預處理后的一部分所述數據利用卷積神經網絡進行處理,處理后同另一部分所述數據使用全連接網絡進行拼接,以確定所述DQN神經網絡架構的步驟包括:
將預處理后的攝像頭圖像處理成數據矩陣作為一個輸入層,以適配所述卷積神經網絡的輸入要求;
將預處理后的其他數據組成一維數組作為另一個輸入層;
將兩個輸入層進入全連接神經網絡進行拼接形成全連接層,以確定所述DQN神經網絡架構。
5.根據權利要求1所述的基于DQN神經網絡和高精度定位的駕駛行為優化方法,其特征在于,
所述DQN神經網絡包括:訓練網絡和評估網絡,所述訓練網絡用于訓練網絡參數,并將所述網絡參數傳給所述評估網絡,所述評估網絡用于進行車輛的獎勵懲罰值和損失函數的計算,同時根據計算得出的損失函數值更新所述所述網絡參數。
6.根據權利要求5所述的基于DQN神經網絡和高精度定位的駕駛行為優化方法,其特征在于,所述的根據確定的所述DQN神經網絡進行所述DQN神經網絡訓練和計算,得出車輛的目標獎勵懲罰值,選取所述目標獎勵懲罰值最大的動作并執行的步驟包括:
獲取所述DQN神經網絡需要的訓練樣本,制作數據集;
確定車輛與道路環境交互的動作集合;
確定DQN神經網絡的損失函數和獎勵懲罰函數;
根據DQN神經網絡計算車輛的目標獎勵懲罰值,選取所述目標獎勵懲罰值最大的動作并執行。
7.根據權利要求6所述的基于DQN神經網絡和高精度定位的駕駛行為優化方法,其特征在于,
所述DQN神經網絡中車輛與道路環境之間交互的形式采用馬爾科夫決策過程:MDP={S,A,Pr,R,γ}來描述,其中,MDP由元組組成,S為狀態集合,A為動作集合,Pr為狀態轉移概率,R為所述獎勵懲罰函數,γ為衰退系數。
8.根據權利要求7所述的基于DQN神經網絡和高精度定位的駕駛行為優化方法,其特征在于,所述損失函數為:
Loss(θ)=1/2[R+γmaxq(s’,a’,θ)-q(s,a,θ)]2
其中,θ為DQN神經網絡參數,R為所述獎勵懲罰函數,γ為所述衰退系數,q為某一狀態下的獎勵懲罰值,s和a分別為當前狀態和動作,s’和a’分別為下一個狀態和動作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉利汽車研究院(寧波)有限公司;浙江吉利控股集團有限公司,未經吉利汽車研究院(寧波)有限公司;浙江吉利控股集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010043096.5/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





