[發(fā)明專利]一種基于課程強(qiáng)化學(xué)習(xí)的單車換道匯入車隊(duì)控制方法在審
| 申請(qǐng)?zhí)枺?/td> | 202310411522.X | 申請(qǐng)日: | 2023-04-18 |
| 公開(kāi)(公告)號(hào): | CN116534011A | 公開(kāi)(公告)日: | 2023-08-04 |
| 發(fā)明(設(shè)計(jì))人: | 劉宏飛;楊笑;萬(wàn)金濤;趙子睿 | 申請(qǐng)(專利權(quán))人: | 吉林大學(xué) |
| 主分類號(hào): | B60W30/18 | 分類號(hào): | B60W30/18;B60W40/00;B60W50/00;B60W60/00 |
| 代理公司: | 石家莊新世紀(jì)專利商標(biāo)事務(wù)所有限公司 13100 | 代理人: | 張曉佩 |
| 地址: | 130022 吉林省長(zhǎng)春市*** | 國(guó)省代碼: | 吉林;22 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 課程 強(qiáng)化 學(xué)習(xí) 單車 匯入 車隊(duì) 控制 方法 | ||
本發(fā)明涉及一種基于課程強(qiáng)化學(xué)習(xí)的單車換道匯入車隊(duì)控制方法,依據(jù)任務(wù)難度從簡(jiǎn)單到復(fù)雜設(shè)置強(qiáng)化學(xué)習(xí)訓(xùn)練課程;依據(jù)車載傳感器獲得的周圍環(huán)境車輛信息和控制對(duì)象,確定強(qiáng)化學(xué)習(xí)的狀態(tài)空間和動(dòng)作空間,根據(jù)車輛狀態(tài)和目標(biāo)任務(wù),多維分級(jí)地設(shè)置獎(jiǎng)勵(lì)函數(shù)引導(dǎo)車輛完成追趕、換道進(jìn)入車隊(duì);搭建Actor網(wǎng)絡(luò)、Critic網(wǎng)絡(luò),并依據(jù)近端策略優(yōu)化算法搭建環(huán)境探索模塊,利用Adam優(yōu)化器更新網(wǎng)絡(luò);選擇相應(yīng)的獎(jiǎng)勵(lì)函數(shù)進(jìn)行訓(xùn)練,對(duì)每個(gè)課程訓(xùn)練后的網(wǎng)絡(luò)進(jìn)行隨機(jī)數(shù)種子實(shí)驗(yàn),并對(duì)課程學(xué)習(xí)最終訓(xùn)練得到的策略神經(jīng)網(wǎng)絡(luò)進(jìn)行場(chǎng)景測(cè)試,檢驗(yàn)該模型目標(biāo)任務(wù)的完成度。本發(fā)明解決復(fù)雜交通流情境下單車匯入車隊(duì)過(guò)程中稀疏獎(jiǎng)勵(lì)造成的訓(xùn)練慢難收斂問(wèn)題。
技術(shù)領(lǐng)域
本發(fā)明屬于自動(dòng)駕駛技術(shù)領(lǐng)域,主要涉及一種基于課程強(qiáng)化學(xué)習(xí)的單車換道匯入車隊(duì)控制方法。
背景技術(shù)
單車換道匯入車隊(duì)是多車協(xié)同駕駛的重要研究?jī)?nèi)容之一,其主要任務(wù)是單個(gè)車輛(以下簡(jiǎn)稱單車)根據(jù)不同道路條件,基于無(wú)線自組織網(wǎng)絡(luò),通過(guò)交互協(xié)作方式來(lái)完成避障、換道、加入車隊(duì)等一系列駕駛操作。車輛列隊(duì)行駛一方面有利于降低道路交通控制管理的復(fù)雜程度,有效改善道路交通的擁堵程度;另一方面有利于提高道路交通行駛的一致性和連續(xù)性,減少環(huán)境污染的同時(shí)保障道路交通安全。
國(guó)內(nèi)外關(guān)于協(xié)同駕駛控制的方法主要有3種:基于最優(yōu)控制理論的方法、基于勢(shì)函數(shù)的方法、基于通信網(wǎng)絡(luò)拓?fù)涞姆椒ǎ瑔诬嚀Q道匯入多是通過(guò)基于規(guī)則的軌跡規(guī)劃決策和跟蹤控制來(lái)實(shí)現(xiàn)。這種方法在無(wú)自由流車輛時(shí)簡(jiǎn)單易實(shí)現(xiàn)、可操作性強(qiáng),但在有交通流情況或飽和交通流情況,單車匯入需要考慮本車道和目標(biāo)車道前后車以及要匯入的車隊(duì)成員等多輛車的相對(duì)狀態(tài)關(guān)系,路徑的求解更加復(fù)雜難度更高;且規(guī)劃和控制往往都孤立地優(yōu)化各自模塊的設(shè)計(jì),難保證全系統(tǒng)最優(yōu);另外,路徑規(guī)劃的誤差會(huì)向跟蹤控制模塊傳播,增加了控制模塊的不可靠性。
機(jī)器學(xué)習(xí)中的強(qiáng)化學(xué)習(xí)通過(guò)智能體和環(huán)境不斷交互學(xué)習(xí)得到最大化累積獎(jiǎng)勵(lì)的策略函數(shù),這類方法屬于傳感器端直接到控制端的控制方法,在復(fù)雜場(chǎng)景應(yīng)用下有著更易開(kāi)發(fā)的優(yōu)勢(shì)、且端到端的特性更易保證全局最優(yōu)不存在模塊間誤差放大的情況,在飽和交通流下控制單車匯入車隊(duì)的復(fù)雜場(chǎng)景有很大的應(yīng)用前景。
發(fā)明內(nèi)容
本發(fā)明的目的使提供一種基于課程強(qiáng)化學(xué)習(xí)的單車換道匯入車隊(duì)控制方法,建立從車輛狀態(tài)空間到連續(xù)動(dòng)作空間的神經(jīng)網(wǎng)絡(luò),并利用近端策略優(yōu)化算法(PPO)結(jié)合課程學(xué)習(xí)對(duì)所建立的策略網(wǎng)絡(luò)進(jìn)行訓(xùn)練優(yōu)化,實(shí)現(xiàn)在復(fù)雜飽和交通流環(huán)境下安全高效全局最優(yōu)地控制智能體完成避障、換道匯入等操作。
本發(fā)明的技術(shù)方案是:
一種基于課程強(qiáng)化學(xué)習(xí)的單車換道匯入車隊(duì)控制方法,包括以下步驟:
S1:在單車跨車道追趕入隊(duì)訓(xùn)練過(guò)程中,依據(jù)任務(wù)難度從簡(jiǎn)單到復(fù)雜設(shè)置強(qiáng)化學(xué)習(xí)訓(xùn)練課程;
S2:依據(jù)車載傳感器獲得的周圍環(huán)境車輛信息和控制對(duì)象,確定強(qiáng)化學(xué)習(xí)的狀態(tài)空間和動(dòng)作空間;
S3:根據(jù)車輛狀態(tài)和目標(biāo)任務(wù),多維分級(jí)地設(shè)置獎(jiǎng)勵(lì)函數(shù)引導(dǎo)車輛完成追趕、換道進(jìn)入車隊(duì);
S4:依據(jù)近端策略優(yōu)化算法搭建環(huán)境探索模塊,包括環(huán)境迭代、狀態(tài)動(dòng)作獎(jiǎng)勵(lì)的收集,并利用Adam優(yōu)化器更新網(wǎng)絡(luò);
S5:依據(jù)所設(shè)置的課程選擇相應(yīng)的獎(jiǎng)勵(lì)函數(shù)進(jìn)行訓(xùn)練,并對(duì)每個(gè)課程訓(xùn)練后的網(wǎng)絡(luò)進(jìn)行隨機(jī)數(shù)種子實(shí)驗(yàn),對(duì)課程學(xué)習(xí)最終訓(xùn)練得到的策略神經(jīng)網(wǎng)絡(luò)進(jìn)行場(chǎng)景測(cè)試,檢驗(yàn)該模型目標(biāo)任務(wù)的完成度。
優(yōu)選的,所述的S1中的課程設(shè)置具體為以下4個(gè)課程:
課程1:縱向控制,無(wú)其他交通參與者的情況下,智能體學(xué)會(huì)控制縱向速度在限速范圍內(nèi);
課程2:橫向控制,車隊(duì)環(huán)境即智能體在車隊(duì)后相鄰車道30m處,智能體學(xué)會(huì)橫縱向控制進(jìn)入車隊(duì)間隙;
課程3:隨機(jī)位置入隊(duì),車隊(duì)環(huán)境即智能體在車隊(duì)后100m內(nèi)隨機(jī)位置進(jìn)行入隊(duì)訓(xùn)練,智能體學(xué)會(huì)橫縱向控制進(jìn)入車隊(duì);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于吉林大學(xué),未經(jīng)吉林大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310411522.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





