[發(fā)明專利]一種基于時空數(shù)據(jù)強化學習的自動駕駛速度控制框架有效

申請?zhí)枺?/td>	202111043124.4	申請日：	2021-09-07
公開（公告）號：	CN113741464B	公開（公告）日：	2022-10-21
發(fā)明（設計）人：	許志;劉順程;夏宇陽;陳旭;刁宇鵬;蘇涵;鄭凱;曾凱	申請（專利權）人：	電子科技大學
主分類號：	G05D1/02	分類號：	G05D1/02
代理公司：	成都眾恒智合專利代理事務所(普通合伙) 51239	代理人：	王育信
地址：	610000 四川省成***	國省代碼：	四川;51
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于時空數(shù)據(jù) 強化學習自動駕駛速度控制框架
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于時空數(shù)據(jù)強化學習的自動駕駛速度控制框架，其特征在于，包括：

離線訓練：利用現(xiàn)實生活中的車輛駕駛數(shù)據(jù)對自動駕駛車輛的速度決策進行學習；

在線模擬：使用已經(jīng)訓練好的網(wǎng)絡來檢測自動駕駛車輛在特定場景下的表現(xiàn)；

所述離線訓練包括：

演員網(wǎng)絡：由兩個網(wǎng)絡組成，當前演員網(wǎng)絡和目標演員網(wǎng)絡，采用長短期記憶神經(jīng)網(wǎng)絡和注意力機制網(wǎng)絡結構，計算相鄰兩輛車之間的相對速度與相對距離的權重；

其中，所述演員網(wǎng)絡的輸入部分為一個存儲車輛歷史時空數(shù)據(jù)的矩陣：

矩陣中的每一個元素由兩個部分組成，分別為相對速度和相對距離：

其中，λ為選取的時間步數(shù)，m為選取的前車數(shù)量，t為當前時刻；

所述相對速度與相對距離的權重計算公式如下：

其中，W_i為神經(jīng)網(wǎng)絡中的參數(shù)，tanh和softmax為神經(jīng)網(wǎng)絡層的激活函數(shù)，A為自動駕駛車輛，C為普通車輛，m指選取的前車數(shù)量，r指速度，V是相對速度，τ表示時間，該公式展示的是對于相對速度的注意力權重計算，相對距離的計算公式相同；然后將得到的t-2時刻到t時刻的注意力權重矩陣weight矩陣輸入到LSTM網(wǎng)絡中，得到當前車輛的加速度a_t；

評委網(wǎng)絡：由兩個網(wǎng)絡組成，當前評委網(wǎng)絡和目標評委網(wǎng)絡，兩個網(wǎng)絡均包括一個輸入層、一個隱藏層和一個輸出層，輸入層輸入當前環(huán)境狀態(tài)和演員網(wǎng)絡輸出的加速度，經(jīng)隱藏層計算后，輸出層輸出當前速度控制模型的好壞程度評價函數(shù)Q值；

所述隱藏層的激活函數(shù)為relu函數(shù)，Q值的計算公式如下：

Q＝tanh(W₀，relu(W₁，s_t，a_t))

其中，W為神經(jīng)網(wǎng)絡參數(shù)、s_t指在該時間步下車輛的狀態(tài)；

根據(jù)得到的Q值，對網(wǎng)絡的訓練公式如下：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)

其中y_i表示離線訓練的當前網(wǎng)絡的Q值，r_i表示在當前狀態(tài)下采取某個動作的獎勵值，L表示更新演員網(wǎng)絡的損失函數(shù)；N表示樣本數(shù)，μ(s|θ^u)表示當前環(huán)境狀態(tài)下的策略函數(shù)，θ表示網(wǎng)絡參數(shù)，Q(s，a|θ^Q)表示根據(jù)當前環(huán)境狀態(tài)和演員網(wǎng)絡輸出的動作值計算出來的Q值，使用貝爾曼方程來更新，γ為貝爾曼方程中的折扣因子；μ’(s|θ^u′)和Q′(s，a|θ^Q′)表示離線訓練的目標網(wǎng)絡中的策略函數(shù)和Q函數(shù)，主要為了避免損失函數(shù)的發(fā)散；

交互環(huán)境：根據(jù)車輛當前狀態(tài)計算得出車輛的下一時刻狀態(tài)并計算獎勵值。

2.根據(jù)權利要求1所述的一種基于時空數(shù)據(jù)強化學習的自動駕駛速度控制框架，其特征在于，所述車輛的下一時刻狀態(tài)的計算公式如下：

兩個公式分別計算下一狀態(tài)當前車輛的速度和緯度坐標；Δt表示兩個時間步之間的時間間隔。

3.根據(jù)權利要求2所述的一種基于時空數(shù)據(jù)強化學習的自動駕駛速度控制框架，其特征在于，所述獎勵值的的計算公式如下：

r_t＝W₁*F(x_t)+W₂*G(y_t)+W₃*H(z_t)

其中x_t，y_t，z_t分別表示交通安全性、駕駛員舒適度以及交通效率，W₁，W₂，W₃表示權重。

下載完整專利技術內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于電子科技大學，未經(jīng)電子科技大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202111043124.4/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。