[發(fā)明專利]基于強(qiáng)化學(xué)習(xí)和避讓策略的應(yīng)急車輛混合換道決策方法有效

申請(qǐng)?zhí)枺?/td>	202011299719.1	申請(qǐng)日：	2020-11-19
公開（公告）號(hào)：	CN112406867B	公開（公告）日：	2021-12-28
發(fā)明（設(shè)計(jì)）人：	胡堅(jiān)明;牛浩懿;裴欣;張毅	申請(qǐng)（專利權(quán)）人：	清華大學(xué)
主分類號(hào)：	B60W30/18	分類號(hào)：	B60W30/18;B60W50/00;G06N3/04;G06N3/08
代理公司：	北京紀(jì)凱知識(shí)產(chǎn)權(quán)代理有限公司 11245	代理人：	冀志華
地址：	100084 北京市海淀區(qū)1***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于強(qiáng)化學(xué)習(xí) 避讓策略應(yīng)急車輛混合決策方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及一種基于強(qiáng)化學(xué)習(xí)和避讓策略的應(yīng)急車輛混合換道決策方法，包括：確定優(yōu)化路段以及待規(guī)劃ICCV和ICEV的執(zhí)行策略；對(duì)待規(guī)劃ICEV的DQN網(wǎng)絡(luò)進(jìn)行初始化；基于待規(guī)劃ICEV及其六個(gè)鄰居車輛的狀態(tài)信息以及其前車的避讓策略執(zhí)行情況，得到DQN網(wǎng)絡(luò)的狀態(tài)空間；基于DQN網(wǎng)絡(luò)的狀態(tài)空間得到輸出值，基于輸出值得到初步?jīng)Q策以及動(dòng)作空間；建立動(dòng)作選擇屏障，對(duì)得到的初步?jīng)Q策進(jìn)行驗(yàn)證和選擇，直到從輸出值或動(dòng)作空間中最終選出的動(dòng)作滿足交通規(guī)則和道路物理結(jié)構(gòu)；定義獎(jiǎng)勵(lì)函數(shù)，用于對(duì)該動(dòng)作所對(duì)應(yīng)的總獎(jiǎng)勵(lì)進(jìn)行計(jì)算；對(duì)DQN網(wǎng)絡(luò)進(jìn)行訓(xùn)練，得到訓(xùn)練好的DQN網(wǎng)絡(luò)。本發(fā)明可以廣泛應(yīng)用于道路換道決策控制領(lǐng)域。

技術(shù)領(lǐng)域

本發(fā)明屬于道路換道決策控制領(lǐng)域，尤其涉及一種基于強(qiáng)化學(xué)習(xí)和避讓策略的應(yīng)急車輛混合換道決策方法。

背景技術(shù)

目前，減少應(yīng)急車輛響應(yīng)時(shí)間的相關(guān)研究大都集中在路線優(yōu)化和交通信號(hào)燈的控制上，試圖從宏觀調(diào)度的角度去解決問題，比如：Dijkstra算法、蟻群算法(ACA)、A*和混合蛙跳算法(SFLA)。但是，這些宏觀方法并沒有充分利用實(shí)時(shí)交通數(shù)據(jù)，很少有對(duì)自動(dòng)駕駛應(yīng)急車輛進(jìn)行微觀控制的，也幾乎沒有考慮對(duì)正常交通流的影響，并且忽視了直道上響應(yīng)時(shí)間的延遲。

此外，少部分研究提到了在直道上對(duì)應(yīng)急車輛自動(dòng)駕駛進(jìn)行微觀控制的確定性算法，比如一系列的跟馳換道策略，包括了一些針對(duì)性的避讓策略，但是與深度強(qiáng)化學(xué)習(xí)獲得的策略相比它們更難泛化到各種不同的交通場(chǎng)景，而且在探索更快的速度方面不見得是最優(yōu)的。

發(fā)明內(nèi)容

針對(duì)上述問題，本發(fā)明的目的是提供一種基于強(qiáng)化學(xué)習(xí)和避讓策略的應(yīng)急車輛混合換道決策方法，該方法通過將確定性避讓策略的穩(wěn)定性和深度強(qiáng)化學(xué)習(xí)的探索性和泛化能力相融合，使得兩種策略取長(zhǎng)補(bǔ)短，能夠縮短任何直道環(huán)境中應(yīng)急車輛的響應(yīng)時(shí)間，為應(yīng)急車輛提出一種省時(shí)、實(shí)時(shí)、數(shù)據(jù)利用率高的微觀直道決策方法，該方法需要在完全自動(dòng)駕駛的交通流中實(shí)施。

為實(shí)現(xiàn)上述目的，本發(fā)明采取以下技術(shù)方案：一種基于強(qiáng)化學(xué)習(xí)和避讓策略的應(yīng)急車輛混合換道決策方法，其包括以下步驟：

(1)確定優(yōu)化路段，并對(duì)優(yōu)化路段上待規(guī)劃ICCV和ICEV的運(yùn)行策略進(jìn)行規(guī)劃；其中，待規(guī)劃ICCV利用基于規(guī)則的避讓策略，待規(guī)劃ICEV利用基于DQN網(wǎng)絡(luò)的混合換道策略；

(2)對(duì)待規(guī)劃ICEV的DQN網(wǎng)絡(luò)進(jìn)行初始化；

(3)基于待規(guī)劃ICEV及其六個(gè)鄰居車輛的狀態(tài)信息以及待規(guī)劃ICEV前車的避讓策略執(zhí)行情況，得到待規(guī)劃ICEV的DQN網(wǎng)絡(luò)的狀態(tài)空間；

(4)將步驟(3)得到的DQN網(wǎng)絡(luò)的狀態(tài)空間作為輸入量輸入初始化后的DQN網(wǎng)絡(luò)，得到t時(shí)刻的輸出值Q，并基于輸出值Q得到初步?jīng)Q策以及動(dòng)作空間；

(5)建立動(dòng)作選擇屏障，用于以探索系數(shù)∈對(duì)步驟(4)得到的初步?jīng)Q策進(jìn)行驗(yàn)證和選擇，直到從輸出值Q或動(dòng)作空間中最終選出的動(dòng)作滿足交通規(guī)則和道路物理結(jié)構(gòu)；

(6)定義獎(jiǎng)勵(lì)函數(shù)，用于對(duì)步驟(5)中得到的動(dòng)作所對(duì)應(yīng)的總獎(jiǎng)勵(lì)R_t進(jìn)行計(jì)算；

(7)根據(jù)定義的狀態(tài)空間、動(dòng)作空間、動(dòng)作選擇屏障以及獎(jiǎng)勵(lì)函數(shù)，對(duì)步驟(2)中初始化的DQN網(wǎng)絡(luò)進(jìn)行訓(xùn)練，得到訓(xùn)練好的DQN網(wǎng)絡(luò)，對(duì)優(yōu)化路段上的待規(guī)劃ICEV的混合換道進(jìn)行決策。

進(jìn)一步地，所述步驟(2)中，對(duì)待規(guī)劃ICEV的DQN網(wǎng)絡(luò)進(jìn)行初始化的方法，包括以下步驟：

(2.1)初始化待規(guī)劃ICEV的DQN網(wǎng)絡(luò)的記憶池該記憶池能夠容納N條記錄，每條記錄(O_t，A_t，R_t，O_t+1)包含了現(xiàn)態(tài)狀態(tài)空間、所做動(dòng)作、獎(jiǎng)勵(lì)值和次態(tài)狀態(tài)空間的信息；

(2.2)初始化待規(guī)劃ICEV的DQN網(wǎng)絡(luò)中的估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)及其神經(jīng)網(wǎng)絡(luò)權(quán)重參數(shù)；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué)，未經(jīng)清華大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011299719.1/2.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

上一篇：一種生物質(zhì)熱風(fēng)爐
下一篇：一種上移式高阻燃鋼質(zhì)防火窗

同類專利

專利分類

B 作業(yè)；運(yùn)輸

B60 一般車輛
B60W 不同類型或不同功能的車輛子系統(tǒng)的聯(lián)合控制；專門適用于混合動(dòng)力車輛的控制系統(tǒng)；不與某一特定子系統(tǒng)的控制相關(guān)聯(lián)的道路車輛駕駛控制系統(tǒng)
B60W30-00 不與某一特定子系統(tǒng)的控制
B60W30-02 .車輛駕駛穩(wěn)定性的控制
B60W30-06 .用于駐車的自動(dòng)操作
B60W30-08 .預(yù)測(cè)或避免可能的或即將到來的碰撞的
B60W30-10 .路線保持
B60W30-14 .巡航控制

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】