[發(fā)明專利]一種自動駕駛決策方法、裝置、設備和存儲介質在審

申請?zhí)枺?/td>	202210015183.9	申請日：	2022-01-07
公開（公告）號：	CN114261400A	公開（公告）日：	2022-04-01
發(fā)明（設計）人：	徐鑫	申請（專利權）人：	京東鯤鵬(江蘇)科技有限公司
主分類號：	B60W50/00	分類號：	B60W50/00;B60W60/00
代理公司：	北京品源專利代理有限公司 11332	代理人：	初春
地址：	215500 江蘇***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種自動駕駛決策方法裝置設備存儲介質
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種自動駕駛決策方法，其特征在于，包括：

獲取自動駕駛的目標車輛的當前狀態(tài)信息；

將所述當前狀態(tài)信息輸入至預設強化學習模型中進行動作決策，根據(jù)所述預設強化學習模型的輸出，獲得所述當前狀態(tài)信息對應的當前學習動作信息，其中，所述預設強化學習模型是通過估計狀態(tài)轉移概率對狀態(tài)空間中的各個狀態(tài)信息進行采樣，并利用策略搜索方式對采樣的每個狀態(tài)信息進行訓練獲得的；

基于目標駕駛規(guī)則策略確定所述當前狀態(tài)信息對應的當前策略動作信息，其中，所述目標駕駛規(guī)則策略是基于駕駛員經(jīng)驗獲得的車輛駕駛策略；

基于所述當前學習動作信息和所述當前策略動作信息進行混合決策，確定所述目標車輛的待執(zhí)行動作信息。

2.根據(jù)權利要求1所述的方法，其特征在于，所述預設強化學習模型的訓練過程，包括：

通過估計狀態(tài)轉移概率對狀態(tài)空間中的各個狀態(tài)信息進行采樣，獲得當前采樣的目標狀態(tài)信息和當前用于確定狀態(tài)轉移函數(shù)的隱變量參數(shù)值；

將所述目標狀態(tài)信息和所述隱變量參數(shù)值輸入至待訓練的預設強化學習模型中，基于預設迭代次數(shù)和所述隱變量參數(shù)值對所述目標狀態(tài)信息進行迭代處理，并在每次迭代過程中，利用策略搜索方式調整在所述目標狀態(tài)信息下選擇每個動作信息對應的回報值；

當采樣的每個狀態(tài)信息均迭代所述預設迭代次數(shù)時，所述待訓練的預設強化學習模型訓練結束，得到所述預設強化學習模型。

3.根據(jù)權利要求2所述的方法，其特征在于，所述利用策略搜索方式調整在所述目標狀態(tài)信息下選擇每個動作信息對應的回報值，包括：

基于所述目標駕駛規(guī)則策略誘導的增強學習策略搜索方式調整在所述目標狀態(tài)信息下選擇每個動作信息的回報值。

4.根據(jù)權利要求3所述的方法，其特征在于，所述基于所述目標駕駛規(guī)則策略誘導的增強學習策略搜索方式調整在所述目標狀態(tài)信息下選擇每個動作信息的回報值，包括：

若檢測到所述目標狀態(tài)信息被訪問過，則基于所述目標駕駛規(guī)則策略和價值函數(shù)，從各個動作信息中選擇回報值最大的第一動作信息，并基于所述第一動作信息和所述隱變量參數(shù)值拓展所述目標狀態(tài)信息的下一狀態(tài)信息，并將下一狀態(tài)信息對應的回報值進行反向傳播，更新所述目標狀態(tài)信息對應的價值函數(shù)的回報值；

若檢測到所述目標狀態(tài)信息未被訪問過，則基于所述目標駕駛規(guī)則策略，確定在所述目標狀態(tài)信息下所選擇的策略動作信息，并將所述策略動作信息確定為選擇的第二動作信息，基于所述第二動作信息和所述隱變量參數(shù)值拓展所述目標狀態(tài)信息的下一狀態(tài)信息，通過隨機模擬方式確定下一狀態(tài)信息對應的回報值，并將下一狀態(tài)信息對應的回報值進行反向傳播，更新所述目標狀態(tài)信息對應的價值函數(shù)的回報值。

5.根據(jù)權利要求4所述的方法，其特征在于，所述基于所述目標駕駛規(guī)則策略和價值函數(shù)，從各個動作信息中選擇回報值最大的第一動作信息，包括：

基于價值函數(shù)確定在所述目標狀態(tài)信息下選擇每個動作信息的第一回報值；

基于在所述目標狀態(tài)信息下訪問每個動作的次數(shù)和總訪問次數(shù)，確定在所述目標狀態(tài)信息下選擇每個動作信息的第二回報值；

基于所述目標駕駛規(guī)則策略，確定在所述目標狀態(tài)信息下選擇每個動作信息的第三回報值；

基于所述第一回報值、所述第二回報值和所述第三回報值，確定每個動作信息對應的總回報值，并將總回報值最大的動作信息確定為第一動作信息。

6.根據(jù)權利要求5所述的方法，其特征在于，所述基于所述目標駕駛規(guī)則策略，確定在所述目標狀態(tài)信息下選擇每個動作信息的第三回報值，包括：

基于所述目標駕駛規(guī)則策略，確定在所述目標狀態(tài)信息下所選擇的策略動作信息；

在所述目標狀態(tài)信息下選擇的當前動作信息為所述策略動作信息時，確定當前動作信息對應的第三回報值為預設激活閾值；

在所述目標狀態(tài)信息下選擇的當前動作信息不是所述策略動作信息時，確定當前動作信息對應的第三回報值為零。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于京東鯤鵬(江蘇)科技有限公司，未經(jīng)京東鯤鵬(江蘇)科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】