[發(fā)明專利]基于監(jiān)督式DQN算法的自動(dòng)駕駛汽車轉(zhuǎn)向控制方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110577276.6 | 申請(qǐng)日: | 2021-05-26 |
| 公開(公告)號(hào): | CN113341960B | 公開(公告)日: | 2022-06-03 |
| 發(fā)明(設(shè)計(jì))人: | 汪鋒;金書峰;唐小林;張志強(qiáng);彭穎 | 申請(qǐng)(專利權(quán))人: | 重慶大學(xué) |
| 主分類號(hào): | G05D1/02 | 分類號(hào): | G05D1/02 |
| 代理公司: | 北京同恒源知識(shí)產(chǎn)權(quán)代理有限公司 11275 | 代理人: | 楊柳岸 |
| 地址: | 400044 重*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 監(jiān)督 dqn 算法 自動(dòng) 駕駛 汽車 轉(zhuǎn)向 控制 方法 | ||
本發(fā)明涉及一種基于監(jiān)督式DQN算法的自動(dòng)駕駛汽車轉(zhuǎn)向控制方法,屬于自動(dòng)駕駛汽車領(lǐng)域。該方法包括:S1:獲取周邊車輛狀態(tài)信息;S2:建立汽車運(yùn)動(dòng)學(xué)模型;S3:利用DQN算法構(gòu)建自動(dòng)駕駛汽車轉(zhuǎn)向控制模型對(duì)車輛的轉(zhuǎn)向角進(jìn)行控制,并優(yōu)化Q網(wǎng)絡(luò)的損失函數(shù),利用MOBIL算法構(gòu)建轉(zhuǎn)向角監(jiān)督信號(hào),對(duì)DQN算法的訓(xùn)練進(jìn)行引導(dǎo)和優(yōu)化。本發(fā)明提升了DQN算法的訓(xùn)練效率。
技術(shù)領(lǐng)域
本發(fā)明屬于自動(dòng)駕駛汽車領(lǐng)域,涉及一種基于監(jiān)督式DQN算法的自動(dòng)駕駛汽車轉(zhuǎn)向控制方法。
背景技術(shù)
在汽車駕駛過程中,存在駕駛員疲勞、情緒波動(dòng)、操作不當(dāng)?shù)热藶橐蛩氐挠绊懀煌ㄊ鹿实念A(yù)測和預(yù)防存在較大困難,而汽車自動(dòng)駕駛技術(shù)的出現(xiàn)和發(fā)展為這一問題提供了新的解決思路。
傳統(tǒng)自動(dòng)駕駛技術(shù)采用分層結(jié)構(gòu),各層職能清晰,算法可解釋性強(qiáng),但分層結(jié)構(gòu)需要對(duì)多種傳統(tǒng)算法進(jìn)行大量手動(dòng)調(diào)參,且應(yīng)對(duì)復(fù)雜交通環(huán)境自適應(yīng)能力弱,魯棒性欠佳。AI技術(shù)與硬件性能的發(fā)展為自動(dòng)駕駛提供了全新的思路,其中深度強(qiáng)化學(xué)習(xí)的出現(xiàn)催生出端到端的自動(dòng)駕駛結(jié)構(gòu)。深度強(qiáng)化學(xué)習(xí)將深度學(xué)習(xí)的表征能力和強(qiáng)化學(xué)習(xí)的試錯(cuò)機(jī)制完美結(jié)合,通過對(duì)智能體策略不斷訓(xùn)練優(yōu)化來獲得更優(yōu)的期望獎(jiǎng)勵(lì),基于深度強(qiáng)化學(xué)習(xí)的端到端結(jié)構(gòu)可以利用感知輸入直接獲得油門、剎車、車輪轉(zhuǎn)角等控制動(dòng)作,大大減少了各層算法構(gòu)建的工作量和調(diào)參成本,同時(shí)提升了自動(dòng)駕駛的泛化能力。
但由于深度強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)在未得到充分訓(xùn)練時(shí)將會(huì)產(chǎn)生大量無意義甚至危險(xiǎn)的動(dòng)作,訓(xùn)練效率較低,而傳統(tǒng)算法可以為深度強(qiáng)化學(xué)習(xí)算法提供一定程度的引導(dǎo),提升其訓(xùn)練速度。因此,亟需一種能夠綜合考慮環(huán)境自適應(yīng)能力和訓(xùn)練時(shí)間成本的自動(dòng)駕駛汽車控制方法。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種基于監(jiān)督式DQN算法的自動(dòng)駕駛汽車轉(zhuǎn)向控制方法,利用深度強(qiáng)化學(xué)習(xí)算法-DQN對(duì)自動(dòng)駕駛汽車實(shí)現(xiàn)轉(zhuǎn)向控制,并對(duì)Q網(wǎng)絡(luò)的損失函數(shù)進(jìn)行了優(yōu)化,同時(shí)采用傳統(tǒng)算法MOBIL提供轉(zhuǎn)向角監(jiān)督信號(hào)進(jìn)行引導(dǎo),提升DQN算法的訓(xùn)練效率。
為達(dá)到上述目的,本發(fā)明提供如下技術(shù)方案:
一種基于監(jiān)督式DQN算法的自動(dòng)駕駛汽車轉(zhuǎn)向控制方法,具體包括以下步驟:
S1:獲取周邊車輛狀態(tài)信息;
S2:搭建汽車運(yùn)動(dòng)學(xué)模型;
S3:利用DQN(Deep Q Network)算法構(gòu)建自動(dòng)駕駛汽車轉(zhuǎn)向控制模型對(duì)車輛的轉(zhuǎn)向角進(jìn)行控制,并優(yōu)化Q網(wǎng)絡(luò)的損失函數(shù),利用MOBIL(Minimize Overall Braking Inducedby Lane changes)算法構(gòu)建轉(zhuǎn)向角監(jiān)督信號(hào),對(duì)DQN算法的訓(xùn)練進(jìn)行引導(dǎo)和優(yōu)化。
進(jìn)一步,步驟S1中,獲取的周邊車輛狀態(tài)信息,包括:周邊車輛與本車的橫縱向相對(duì)車速,以及周邊車輛與本車的橫縱向距離。
進(jìn)一步,步驟S2中,搭建的汽車運(yùn)動(dòng)學(xué)模型為:
其中,x,y分別為全局坐標(biāo)系下車輛質(zhì)心橫坐標(biāo)和縱坐標(biāo),分別為全局坐標(biāo)系下車輛質(zhì)心橫向速度和縱向速度,v為車輛速度,θ為車輛航向角,為車輛橫擺角速度,β為車輛側(cè)偏角,a為車輛加速度,lf為車輛前軸到質(zhì)心的距離,lr為車輛后軸到質(zhì)心的距離,δ為車輛前輪轉(zhuǎn)向角。
進(jìn)一步,步驟S3中,利用DQN算法構(gòu)建自動(dòng)駕駛汽車轉(zhuǎn)向控制模型,具體包括以下步驟:
S301:構(gòu)建車輛狀態(tài)空間;
所述車輛狀態(tài)空間為包含周邊車輛與本車的橫縱向相對(duì)速度以及周邊車輛與本車的橫縱向距離的集合S,表示為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶大學(xué),未經(jīng)重慶大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110577276.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 在即時(shí)通信中提供即時(shí)監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對(duì)象尋址方法、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種機(jī)器人表情調(diào)用方法和家用機(jī)器人
- 計(jì)算機(jī)視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計(jì)算機(jī)視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法
- 一種基于自舉DQN的增強(qiáng)學(xué)習(xí)深度搜索方法
- 一種基于強(qiáng)化學(xué)習(xí)的圖片動(dòng)態(tài)自適應(yīng)壓縮方法
- 基于DQN神經(jīng)網(wǎng)絡(luò)和高精度定位的駕駛行為優(yōu)化方法
- 一種基于引導(dǎo)式DQN控制的機(jī)械臂控制方法
- 基于Double DQN的改進(jìn)深度強(qiáng)化學(xué)習(xí)方法及系統(tǒng)
- 一種用于理解DQN模型的可視分析方法
- 基于強(qiáng)化學(xué)習(xí)和避讓策略的應(yīng)急車輛混合換道決策方法
- 一種基于強(qiáng)化學(xué)習(xí)的反無人機(jī)任務(wù)分配方法
- 基于DQN的車間多功能機(jī)器人
- 水聲網(wǎng)絡(luò)中基于深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)時(shí)域干擾對(duì)齊的MAC協(xié)議





