[發(fā)明專利]一種基于深度Q學(xué)習(xí)的自動(dòng)駕駛換道決策方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110954994.0 | 申請(qǐng)日: | 2021-08-19 |
| 公開(公告)號(hào): | CN113734170B | 公開(公告)日: | 2023-10-24 |
| 發(fā)明(設(shè)計(jì))人: | 崔建勛;要甲 | 申請(qǐng)(專利權(quán))人: | 崔建勛 |
| 主分類號(hào): | B60W30/18 | 分類號(hào): | B60W30/18;B60W60/00;B60W50/00;G06N3/0499;G06N3/06;G06N3/092 |
| 代理公司: | 哈爾濱市松花江聯(lián)合專利商標(biāo)代理有限公司 23213 | 代理人: | 張利明 |
| 地址: | 150090 黑龍江省哈爾濱市*** | 國(guó)省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 自動(dòng) 駕駛 決策 方法 | ||
一種基于深度Q學(xué)習(xí)的自動(dòng)駕駛換道決策方法,屬于自動(dòng)駕駛技術(shù)領(lǐng)域。解決了現(xiàn)有自動(dòng)駕駛車輛基于強(qiáng)化學(xué)習(xí)進(jìn)行換道決策,由于駕駛環(huán)境狀態(tài)復(fù)雜,導(dǎo)致學(xué)習(xí)的效率很低的問題。本發(fā)明采集目標(biāo)自動(dòng)駕駛車輛前后和同向左和/或右車道車輛的相對(duì)位置及與相對(duì)速度;將相對(duì)位置及與相對(duì)速度作為環(huán)境向量,輸入至經(jīng)Q值函數(shù)訓(xùn)練的全連接神經(jīng)網(wǎng)絡(luò),獲得所有換道動(dòng)作的Q值估計(jì)值;判斷所有換道動(dòng)作是否屬于當(dāng)前時(shí)刻安全動(dòng)作集合,提取屬于當(dāng)前時(shí)刻安全動(dòng)作集合的換道動(dòng)作;采用Argmax函數(shù),從所述屬于當(dāng)前時(shí)刻安全動(dòng)作集合提取Q值估計(jì)值最大的換道動(dòng)作,將Q值估計(jì)值最大的換道動(dòng)作作為下一時(shí)刻的換道動(dòng)作。本發(fā)明適用于自動(dòng)駕駛換道。
技術(shù)領(lǐng)域
本發(fā)明屬于自動(dòng)駕駛技術(shù)領(lǐng)域。
背景技術(shù)
換道決策是絕大多數(shù)駕駛場(chǎng)景下的基本行為,例如車輛合流、車輛分流、超車、環(huán)形 交叉口路口通行等等,因此建立自動(dòng)駕駛車輛換道決策的有效方法是實(shí)現(xiàn)各種駕駛場(chǎng)景下 的自動(dòng)駕駛必備、重要且復(fù)雜的功能。
傳統(tǒng)的自動(dòng)駕駛換道決策方法通常是基于規(guī)則的,即根據(jù)專家經(jīng)驗(yàn)和行業(yè)知識(shí),針對(duì) 特定的換道場(chǎng)景,指定相應(yīng)的換道動(dòng)作。這種方法過于“僵硬”,難以應(yīng)用于未知情況下的 換道決策,導(dǎo)致決策方法難以泛化的問題。近年來(lái),研究人員普遍重視基于強(qiáng)化學(xué)習(xí),尤 其是深度強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛換道決策的方法。強(qiáng)化學(xué)習(xí)能夠允許自動(dòng)駕駛車輛不斷的與 環(huán)境互動(dòng),進(jìn)而收集經(jīng)驗(yàn),然后不斷提高自身的換道決策水平。這種方式固然有非常好的 泛化能力,能夠處理各種未知的駕駛場(chǎng)景,但是其根本的問題在于:(1)無(wú)法完全保證自 動(dòng)駕駛換道決策行為的安全。這是因?yàn)椋瑥?qiáng)化學(xué)習(xí)中是通過指定獎(jiǎng)勵(lì)函數(shù)來(lái)促進(jìn)決策水平 的提升,而針對(duì)換道通常的獎(jiǎng)勵(lì)函數(shù)是發(fā)生碰撞時(shí),給以一個(gè)很大的負(fù)獎(jiǎng)勵(lì),從而盡量避 免自動(dòng)駕駛車輛換道引發(fā)安全問題,但盡管如此,無(wú)法從根本上避免事故;(2)強(qiáng)化學(xué)習(xí)的精髓在于自動(dòng)駕駛車輛與環(huán)境不斷的互動(dòng),然后收集經(jīng)驗(yàn),但是由于駕駛環(huán)境狀態(tài)的復(fù)雜性(狀態(tài)空間復(fù)雜),導(dǎo)致學(xué)習(xí)的效率很低。
發(fā)明內(nèi)容
本發(fā)明目的是為了解決現(xiàn)有自動(dòng)駕駛車輛基于強(qiáng)化學(xué)習(xí)進(jìn)行換道決策,由于駕駛環(huán)境 狀態(tài)復(fù)雜,導(dǎo)致學(xué)習(xí)的效率很低,自安全性差的問題,提供了一種基于深度Q學(xué)習(xí)的自動(dòng) 駕駛換道決策方法。
本發(fā)明所述一種基于深度Q學(xué)習(xí)的自動(dòng)駕駛換道決策方法,包括:
步驟一、采集目標(biāo)自動(dòng)駕駛車輛前后和同向左和/或右車道車輛的相對(duì)位置及與相對(duì)速 度;
步驟二、將步驟一所述的相對(duì)位置及與相對(duì)速度作為環(huán)境向量,輸入至經(jīng)Q值函數(shù)訓(xùn) 練的全連接神經(jīng)網(wǎng)絡(luò),獲得所有換道動(dòng)作的Q值估計(jì)值;
步驟三、判斷所有換道動(dòng)作是否屬于當(dāng)前時(shí)刻安全動(dòng)作集合,提取屬于當(dāng)前時(shí)刻安全 動(dòng)作集合的換道動(dòng)作;
步驟四、采用Argmax函數(shù),從所述屬于當(dāng)前時(shí)刻安全動(dòng)作集合提取Q值估計(jì)值最大的換道動(dòng)作,將所述Q值估計(jì)值最大的換道動(dòng)作作為下一時(shí)刻的換道動(dòng)作。
進(jìn)一步地,本發(fā)明中,步驟二中所述的環(huán)境向量包括同向車道的環(huán)境車輛與目標(biāo)自動(dòng) 駕駛車輛的相對(duì)位置和相對(duì)速度,當(dāng)環(huán)境為同向?yàn)槿嚨罆r(shí)表示為:
s=[drlq,vrlq,drcq,vrcq,drrq,vRL,drqf,vrqf,drcf,vrcf,drrf,vrrf,]
其中,s為環(huán)境向量,dr,vr分別表示環(huán)境車輛與目標(biāo)自動(dòng)駕駛車輛的相對(duì)位置和相對(duì) 速度,其角標(biāo)第一個(gè)字母l,c,r分別表示左側(cè)車道、當(dāng)前車道和右側(cè)車道,第二個(gè)字母q, f分別表示前方車輛、后方車輛;vRL表示目標(biāo)自動(dòng)駕駛車輛的速度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于崔建勛,未經(jīng)崔建勛許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110954994.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





