[發(fā)明專(zhuān)利]一種基于深度Q學(xué)習(xí)的自動(dòng)駕駛換道決策方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110954994.0 | 申請(qǐng)日: | 2021-08-19 |
| 公開(kāi)(公告)號(hào): | CN113734170B | 公開(kāi)(公告)日: | 2023-10-24 |
| 發(fā)明(設(shè)計(jì))人: | 崔建勛;要甲 | 申請(qǐng)(專(zhuān)利權(quán))人: | 崔建勛 |
| 主分類(lèi)號(hào): | B60W30/18 | 分類(lèi)號(hào): | B60W30/18;B60W60/00;B60W50/00;G06N3/0499;G06N3/06;G06N3/092 |
| 代理公司: | 哈爾濱市松花江聯(lián)合專(zhuān)利商標(biāo)代理有限公司 23213 | 代理人: | 張利明 |
| 地址: | 150090 黑龍江省哈爾濱市*** | 國(guó)省代碼: | 黑龍江;23 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 自動(dòng) 駕駛 決策 方法 | ||
1.一種基于深度Q學(xué)習(xí)的自動(dòng)駕駛換道決策方法,其特征在于,包括:
步驟一、采集目標(biāo)自動(dòng)駕駛車(chē)輛前后和同向左和/或右車(chē)道車(chē)輛的相對(duì)位置及與相對(duì)速度;
步驟二、將步驟一所述的相對(duì)位置及與相對(duì)速度作為環(huán)境向量,輸入至經(jīng)Q值函數(shù)訓(xùn)練的全連接神經(jīng)網(wǎng)絡(luò),獲得所有換道動(dòng)作的Q值估計(jì)值;
步驟三、判斷所有換道動(dòng)作是否屬于當(dāng)前時(shí)刻安全動(dòng)作集合,提取屬于當(dāng)前時(shí)刻安全動(dòng)作集合的換道動(dòng)作;
步驟四、采用Argmax函數(shù),從所述屬于當(dāng)前時(shí)刻安全動(dòng)作集合提取Q值估計(jì)值最大的換道動(dòng)作,將所述Q值估計(jì)值最大的換道動(dòng)作作為下一時(shí)刻的換道動(dòng)作。
2.根據(jù)權(quán)利要求1所述的一種基于深度Q學(xué)習(xí)的自動(dòng)駕駛換道決策方法,其特征在于,步驟二中所述的環(huán)境向量包括:同向車(chē)道的環(huán)境車(chē)輛與目標(biāo)自動(dòng)駕駛車(chē)輛的相對(duì)位置和相對(duì)速度,當(dāng)環(huán)境為同向?yàn)槿?chē)道時(shí)表示為:
s=[drlq,vrlq,drcq,vrcq,drrq,vRL,drqf,vrqf,drcf,vrcf,drrf,vrrf,]
其中,s為環(huán)境向量,dr,vr分別表示環(huán)境車(chē)輛與目標(biāo)自動(dòng)駕駛車(chē)輛的相對(duì)位置和相對(duì)速度,其角標(biāo)第一個(gè)字母l,c,r分別表示左側(cè)車(chē)道、當(dāng)前車(chē)道和右側(cè)車(chē)道,第二個(gè)字母q,f分別表示前方車(chē)輛、后方車(chē)輛;vRL表示目標(biāo)自動(dòng)駕駛車(chē)輛的速度。
3.根據(jù)權(quán)利要求1所述的一種基于深度Q學(xué)習(xí)的自動(dòng)駕駛換道決策方法,其特征在于,步驟二中所述的換道動(dòng)包括向左換道、保持當(dāng)前車(chē)道和向右換道。
4.根據(jù)權(quán)利要求1所述的一種基于深度Q學(xué)習(xí)的自動(dòng)駕駛換道決策方法,其特征在于,驟二中,獲得所有換道動(dòng)作的Q值估計(jì)值方法為:
利用獎(jiǎng)勵(lì)函數(shù)對(duì)駕駛速度進(jìn)行擬合;
所述獎(jiǎng)勵(lì)函數(shù)為:rt=-|vRL,t-vdes,t|
當(dāng)目標(biāo)自動(dòng)駕駛車(chē)輛行駛速度越接近期望速度,獎(jiǎng)勵(lì)值越高,其中,vdes,t為t時(shí)刻的期望速度;vRL,t為t時(shí)刻目標(biāo)自動(dòng)駕駛車(chē)輛的實(shí)際速度;
利用獎(jiǎng)勵(lì)函數(shù)計(jì)算當(dāng)前時(shí)刻的Q值估計(jì)值yt:
其中,a′為下一時(shí)刻選擇的換道動(dòng)作,st+1是下一時(shí)刻自動(dòng)駕駛車(chē)輛所處的環(huán)境狀態(tài)向量,θ是當(dāng)前時(shí)刻帶有全連接神經(jīng)網(wǎng)絡(luò)的參數(shù);Q(st+1,a′;θ)為全連接神經(jīng)網(wǎng)絡(luò)對(duì)下一時(shí)刻Q值的估計(jì)值。
5.根據(jù)權(quán)利要求1所述的一種基于深度Q學(xué)習(xí)的自動(dòng)駕駛換道決策方法,其特征在于,當(dāng)前時(shí)刻安全動(dòng)作集合為:
其中,Asafe(t)為當(dāng)前時(shí)刻的安全動(dòng)作的集合,為自動(dòng)駕駛車(chē)輛當(dāng)前車(chē)道在時(shí)刻t的安全行駛空間,為自動(dòng)駕駛車(chē)輛左側(cè)車(chē)道在時(shí)刻t的安全行駛空間,為自動(dòng)駕駛車(chē)輛右側(cè)車(chē)道在時(shí)刻t的安全行駛空間,pa(t)為t時(shí)刻自動(dòng)駕駛車(chē)輛的執(zhí)行動(dòng)作a后的位置,a表示當(dāng)前時(shí)刻的換道動(dòng)作,A為換道動(dòng)作集合,
A={a1=向左換道,a2=保持當(dāng)前車(chē)道,a3=向右換道},[tb,th]為動(dòng)作a執(zhí)行的時(shí)間范圍,tb為開(kāi)始執(zhí)行動(dòng)作a的時(shí)間,th執(zhí)行動(dòng)作a結(jié)束的時(shí)間。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于崔建勛,未經(jīng)崔建勛許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110954994.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
B60W 不同類(lèi)型或不同功能的車(chē)輛子系統(tǒng)的聯(lián)合控制;專(zhuān)門(mén)適用于混合動(dòng)力車(chē)輛的控制系統(tǒng);不與某一特定子系統(tǒng)的控制相關(guān)聯(lián)的道路車(chē)輛駕駛控制系統(tǒng)
B60W30-00 不與某一特定子系統(tǒng)的控制
B60W30-02 .車(chē)輛駕駛穩(wěn)定性的控制
B60W30-06 .用于駐車(chē)的自動(dòng)操作
B60W30-08 .預(yù)測(cè)或避免可能的或即將到來(lái)的碰撞的
B60W30-10 .路線保持
B60W30-14 .巡航控制
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





