[發明專利]一種自動駕駛決策方法、裝置、設備和存儲介質在審
| 申請號: | 202210015183.9 | 申請日: | 2022-01-07 |
| 公開(公告)號: | CN114261400A | 公開(公告)日: | 2022-04-01 |
| 發明(設計)人: | 徐鑫 | 申請(專利權)人: | 京東鯤鵬(江蘇)科技有限公司 |
| 主分類號: | B60W50/00 | 分類號: | B60W50/00;B60W60/00 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 初春 |
| 地址: | 215500 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自動 駕駛 決策 方法 裝置 設備 存儲 介質 | ||
本發明實施例公開了一種自動駕駛決策方法、裝置、設備和存儲介質,該方法包括:獲取自動駕駛的目標車輛的當前狀態信息;將當前狀態信息輸入至預設強化學習模型中進行動作決策,根據預設強化學習模型的輸出,獲得當前學習動作信息,其中,預設強化學習模型是通過估計狀態轉移概率對狀態空間中的各個狀態信息進行采樣,并利用策略搜索方式對采樣的每個狀態信息進行訓練獲得的;基于目標駕駛規則策略確定當前策略動作信息,其中,目標駕駛規則策略是基于駕駛員經驗獲得的車輛駕駛策略;基于當前學習動作信息和當前策略動作信息進行混合決策,確定目標車輛的待執行動作信息。通過本發明實施例的技術方案,可以提高駕駛決策的魯棒性和準確性。
技術領域
本發明實施例涉及自動駕駛技術,尤其涉及一種自動駕駛決策方法、裝置、設備和存儲介質。
背景技術
自動駕駛過程是包含環境感知、動作決策和動作執行的智能系統執行過程。動作決策作為連接環境感知和動作執行的中樞位置,成為自動駕駛技術中的研究重點。
目前,可以利用深度強化學習的模型進行自動駕駛決策,獲得待執行的最優動作信息。
然而,在實現本發明過程中,發明人發現現有技術中至少存在如下問題:
由于自動駕駛環境的復雜性和多樣性,強化學習模型的決策效果往往需要依賴于大量的樣本狀態信息,并且容易受到狀態信息的干擾,導致駕駛決策的魯棒性和準確性較低。
發明內容
本發明實施例提供了一種自動駕駛決策方法、裝置、設備和存儲介質,以提高駕駛決策的魯棒性和準確性。
第一方面,本發明實施例提供了一種自動駕駛決策方法,包括:
獲取自動駕駛的目標車輛的當前狀態信息;
將所述當前狀態信息輸入至預設強化學習模型中進行動作決策,根據所述預設強化學習模型的輸出,獲得所述當前狀態信息對應的當前學習動作信息,其中,所述預設強化學習模型是通過估計狀態轉移概率對狀態空間中的各個狀態信息進行采樣,并利用策略搜索方式對采樣的每個狀態信息進行訓練獲得的;
基于目標駕駛規則策略確定所述當前狀態信息對應的當前策略動作信息,其中,所述目標駕駛規則策略是基于駕駛員經驗獲得的車輛駕駛策略;
基于所述當前學習動作信息和所述當前策略動作信息進行混合決策,確定所述目標車輛的待執行動作信息。
第二方面,本發明實施例還提供了一種自動駕駛決策裝置,其特征在于,包括:
當前狀態信息獲取模塊,用于獲取自動駕駛的目標車輛的當前狀態信息;
當前學習動作信息確定模塊,用于將所述當前狀態信息輸入至預設強化學習模型中進行動作決策,根據所述預設強化學習模型的輸出,獲得所述當前狀態信息對應的當前學習動作信息,其中,所述預設強化學習模型是通過估計狀態轉移概率對狀態空間中的各個狀態信息進行采樣,并利用策略搜索方式對采樣的每個狀態信息進行訓練獲得的;
當前策略動作信息確定模塊,用于基于目標駕駛規則策略確定所述當前狀態信息對應的當前策略動作信息,其中,所述目標駕駛規則策略是基于駕駛員經驗獲得的車輛駕駛策略;
待執行動作信息確定模塊,用于基于所述當前學習動作信息和所述當前策略動作信息進行混合決策,確定所述目標車輛的待執行動作信息。
第三方面,本發明實施例還提供了一種電子設備,所述電子設備包括:
一個或多個處理器;
存儲器,用于存儲一個或多個程序;
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如本發明任意實施例所提供的自動駕駛決策方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東鯤鵬(江蘇)科技有限公司,未經京東鯤鵬(江蘇)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210015183.9/2.html,轉載請聲明來源鉆瓜專利網。





