[發(fā)明專利]基于最大熵強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛汽車決策規(guī)劃方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210261432.2 | 申請(qǐng)日: | 2022-03-16 |
| 公開(kāi)(公告)號(hào): | CN114580302A | 公開(kāi)(公告)日: | 2022-06-03 |
| 發(fā)明(設(shè)計(jì))人: | 唐小林;黃冰;劉騰;楊豐閣;楊凱;李佳承 | 申請(qǐng)(專利權(quán))人: | 重慶大學(xué) |
| 主分類號(hào): | G06F30/27 | 分類號(hào): | G06F30/27;G06N20/00;B60W40/00;B60W60/00 |
| 代理公司: | 北京同恒源知識(shí)產(chǎn)權(quán)代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400044 重*** | 國(guó)省代碼: | 重慶;50 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 最大 強(qiáng)化 學(xué)習(xí) 自動(dòng) 駕駛 汽車 決策 規(guī)劃 方法 | ||
1.一種基于最大熵強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛汽車決策規(guī)劃方法,其特征在于,該方法具體包括以下步驟:
S1:構(gòu)建基于最大熵強(qiáng)化學(xué)習(xí)的決策規(guī)劃模型,該模型包括:狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)、策略函數(shù)與評(píng)價(jià)模型;
S2:構(gòu)建具有交互性的高速公路仿真訓(xùn)練場(chǎng)景:使用二自由度汽車運(yùn)動(dòng)學(xué)模型描述訓(xùn)練場(chǎng)景中車輛的運(yùn)動(dòng),并利用基于規(guī)則的智能決策規(guī)劃模型控制環(huán)境車輛,使環(huán)境具有交互特性;
S3:訓(xùn)練基于最大熵強(qiáng)化學(xué)習(xí)的決策規(guī)劃模型。
2.根據(jù)權(quán)利要求1所述的基于最大熵強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛汽車決策規(guī)劃方法,其特征在于,步驟S1中,構(gòu)建基于最大熵強(qiáng)化學(xué)習(xí)的決策規(guī)劃模型,具體包括:
S11:搭建狀態(tài)空間S:以關(guān)鍵的環(huán)境信息構(gòu)建狀態(tài)空間,包括目標(biāo)車輛的位置、速度和航向角,一定范圍內(nèi)的環(huán)境車輛相對(duì)目標(biāo)車輛的相對(duì)位置、相對(duì)速度及其航向角;
S12:確定動(dòng)作空間A:動(dòng)作空間由車輛加速度與前輪轉(zhuǎn)向角組成,以此控制目標(biāo)車輛的移動(dòng);
S13:構(gòu)建獎(jiǎng)勵(lì)函數(shù)R:獎(jiǎng)勵(lì)函數(shù)是安全指標(biāo)rsafe、高效指標(biāo)rspeed、舒適指標(biāo)rcomfort和合規(guī)指標(biāo)rrule四個(gè)指標(biāo)的加權(quán)求和,即:
r=k1rsafe+k2rspeed+k3rcomfort+k4rrule
其中,k1、k2、k3、k4為各項(xiàng)的權(quán)重,安全指標(biāo)rsafe要求目標(biāo)車輛未發(fā)生碰撞或者駛向道路外,高效指標(biāo)rspeed要求目標(biāo)車輛的行駛速度接近期望速度,舒適指標(biāo)rcomfort要求車輛的側(cè)向加速度較小,合規(guī)指標(biāo)rrule鼓勵(lì)車輛在最右側(cè)車道行駛并鼓勵(lì)車輛沿著所在車道中心線行駛;
S14:給定策略函數(shù)π的結(jié)構(gòu):使用多層感知機(jī)擬合策略函數(shù)π;策略函數(shù)表示狀態(tài)與動(dòng)作間的映射關(guān)系;
S15:給定評(píng)價(jià)模型的結(jié)構(gòu):評(píng)價(jià)模型包括兩對(duì)評(píng)價(jià)函數(shù)與目標(biāo)評(píng)價(jià)函數(shù);兩個(gè)評(píng)價(jià)函數(shù)Q1、Q2與兩個(gè)目標(biāo)評(píng)價(jià)函數(shù)Qtar-1、Qtar-2均由相同結(jié)構(gòu)的多層感知機(jī)擬合;評(píng)價(jià)模型以最大化獎(jiǎng)勵(lì)與策略熵的加權(quán)和為評(píng)價(jià)標(biāo)準(zhǔn),評(píng)估最大熵強(qiáng)化學(xué)習(xí)模型采取的動(dòng)作。
3.根據(jù)權(quán)利要求1所述的基于最大熵強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛汽車決策規(guī)劃方法,其特征在于,步驟S2中,構(gòu)建具有交互性的高速公路仿真訓(xùn)練場(chǎng)景,具體包括以下步驟:
S21:規(guī)定仿真環(huán)境中,車輛的運(yùn)動(dòng)皆由二自由度的運(yùn)動(dòng)學(xué)模型描述:
其中,x、y、v分別是車輛的縱向位置、橫向位置、橫擺角以及速度,x’、y’、v’分別是縱向位置、橫向位置、橫擺角以及速度的一階導(dǎo)數(shù),a是加速度,lr、lf是車輛的重心到前軸、后軸的距離,β是車輛的重心處的側(cè)偏角,δ是轉(zhuǎn)向角;
S22:搭建基于規(guī)則的環(huán)境車輛決策規(guī)劃模型;
S23:隨機(jī)初始化環(huán)境車輛在仿真環(huán)境中的初始位置、初始速度與期望速度。
4.根據(jù)權(quán)利要求1所述的基于最大熵強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛汽車決策規(guī)劃方法,其特征在于,步驟S3中,訓(xùn)練基于最大熵強(qiáng)化學(xué)習(xí)的決策規(guī)劃模型,具體包括:模型初始化,生成交互式訓(xùn)練數(shù)據(jù),更新評(píng)價(jià)模型、策略函數(shù)和溫度系數(shù),測(cè)試模型性能。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶大學(xué),未經(jīng)重慶大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210261432.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





