[發(fā)明專利]一種基于強(qiáng)化學(xué)習(xí)的自動駕駛關(guān)鍵場景生成方法有效
| 申請?zhí)枺?/td> | 202110082493.8 | 申請日: | 2021-01-21 |
| 公開(公告)號: | CN112784485B | 公開(公告)日: | 2021-09-10 |
| 發(fā)明(設(shè)計(jì))人: | 董乾;薛云志;孟令中;楊光;王鵬淇;師源;武斌 | 申請(專利權(quán))人: | 中國科學(xué)院軟件研究所 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G01M17/007;G06F111/08 |
| 代理公司: | 北京君尚知識產(chǎn)權(quán)代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強(qiáng)化 學(xué)習(xí) 自動 駕駛 關(guān)鍵 場景 生成 方法 | ||
本發(fā)明公開了一種基于強(qiáng)化學(xué)習(xí)的自動駕駛關(guān)鍵場景生成方法,其步驟包括:1)從地圖庫中選擇一個道路場景,設(shè)置仿真系統(tǒng)中主車的行駛路線并為各動態(tài)環(huán)境要素分別建立概率模型;2)仿真系統(tǒng)控制主車開始執(zhí)行仿真任務(wù);基于強(qiáng)化學(xué)習(xí)技術(shù),對所選道路場景中各動態(tài)要素的概率模型進(jìn)行訓(xùn)練,得到各概率模型針對所選道路場景的最優(yōu)參數(shù)并保存在測試用例庫中;3)循環(huán)步驟1?2),得到各概率模型針對地圖庫中每一道路場景的最優(yōu)參數(shù);4)從該地圖庫中獲取若干道路場景并組合得到測試地圖,并選擇仿真環(huán)境中所需的動態(tài)要素;5)從測試用例庫中導(dǎo)入該測試地圖所含的各動態(tài)要素的概率模型及對應(yīng)最優(yōu)參數(shù),生成關(guān)鍵場景測試用例。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于強(qiáng)化學(xué)習(xí)的自動駕駛關(guān)鍵場景生成方法,屬于計(jì)算機(jī)軟件技術(shù)領(lǐng)域。
背景技術(shù)
如今,大多數(shù)感知和預(yù)測算法的性能對訓(xùn)練數(shù)據(jù)的不平衡非常敏感(也稱為長尾問題),罕見事件通常很難收集,并且在龐大的數(shù)據(jù)流中容易被忽略,這極大地挑戰(zhàn)了機(jī)器人在現(xiàn)實(shí)世界中的應(yīng)用,尤其是在安全關(guān)鍵領(lǐng)域(例如自動駕駛)中。
在自動駕駛行業(yè)中,通常會通過仿真來重現(xiàn)在測試駕駛過程中收集的關(guān)鍵場景。現(xiàn)有技術(shù)提出了一種稱為最壞情況評估的替代方法,以搜索最壞情況評估車輛領(lǐng)域中的控制器。盡管通過最壞情況評估挖掘出的某些情況可能有用,但在現(xiàn)實(shí)世界中幾乎不可能出現(xiàn)一些極具風(fēng)險(xiǎn)的情況,對于實(shí)際使用的指導(dǎo)意義不大。此外,現(xiàn)有技術(shù)主要針對自動駕駛的仿真主體(如無人車)等的路線或任務(wù)完成情況進(jìn)行仿真,但是,針對仿真環(huán)境的部署如何達(dá)到企業(yè)需要的關(guān)鍵安全場景要求,還沒有成型的方法提出。
強(qiáng)化學(xué)習(xí)是人工智能機(jī)器學(xué)習(xí)領(lǐng)域里的一個分支,用于控制能夠在某個環(huán)境下自主行動的智能體,通過和環(huán)境之間的互動,包括感知與得到獎勵,而不斷改進(jìn)它的行為。強(qiáng)化學(xué)習(xí)中兩個最重要的特征就是試錯和滯后獎勵。因此,本發(fā)明基于強(qiáng)化學(xué)習(xí)理論提出自動駕駛測試過程中的關(guān)鍵場景生成方法。
發(fā)明內(nèi)容
現(xiàn)有技術(shù)中缺少對于自動駕駛仿真環(huán)境中動態(tài)環(huán)境要素的訓(xùn)練,缺少對于動態(tài)環(huán)境要素如何部署的自動駕駛關(guān)鍵安全場景生成的問題,本發(fā)明的目的在于提供一種基于強(qiáng)化學(xué)習(xí)的自動駕駛關(guān)鍵場景生成方法。本發(fā)明針對自動駕駛仿真場景中的動態(tài)環(huán)境要素,通過強(qiáng)化學(xué)習(xí)在仿真過程中不斷訓(xùn)練模型參數(shù),得到在不同道路場景下的動態(tài)環(huán)境要素的神經(jīng)網(wǎng)絡(luò)模型,由此生成一系列關(guān)鍵場景測試用例。動態(tài)環(huán)境要素的模型參數(shù)包括初始位置、運(yùn)動速度、運(yùn)動路線、觸發(fā)距離等。本發(fā)明設(shè)計(jì)了合理的動態(tài)環(huán)境要素獎勵機(jī)制,結(jié)合道路場景,充分考慮了行人、車輛、交通燈等動態(tài)環(huán)境要素的運(yùn)動軌跡和對于主車的影響。
在本發(fā)明中,自動駕駛測試場景的地圖庫可由測試系統(tǒng)預(yù)先設(shè)置,也可由用戶導(dǎo)入地圖場景;主車是指在測試系統(tǒng)中被測虛擬車輛,其運(yùn)動軌跡和行為模式由仿真系統(tǒng)的決策模塊控制;動態(tài)環(huán)境要素主要包括行人、其他行駛車輛、交通燈三種類型,可在仿真系統(tǒng)中對被測虛擬車輛的行駛造成動態(tài)干擾,其中行人是在測試場景中的道路參與者,其他行駛車輛是共同使用測試場景道路的非被測車輛,交通燈是相對靜態(tài)的交通要素,用于控制路口的交通燈時間變換。
本發(fā)明基于強(qiáng)化學(xué)習(xí)的自動駕駛關(guān)鍵場景生成方法包括以下步驟:
步驟1:測試場景的初始化,從地圖庫中選擇一個道路場景,設(shè)置主車的行駛路線,為行人、其他行駛車輛、交通燈三類動態(tài)環(huán)境要素分別建立初始概率模型;
步驟2:仿真系統(tǒng)的決策模塊控制主車開始執(zhí)行仿真任務(wù);基于強(qiáng)化學(xué)習(xí)技術(shù),針對于所選的道路場景中三類動態(tài)要素的概率模型參數(shù)進(jìn)行訓(xùn)練;
步驟3:三類動態(tài)要素最終得到針對所選道路情況的概率模型的最優(yōu)參數(shù),保存在測試用例庫中;
步驟4:循環(huán)步驟1-3,直至三類動態(tài)要素在地圖庫中所有道路場景都訓(xùn)練獲得概率模型最優(yōu)參數(shù);
步驟5:從地圖庫中導(dǎo)入道路組合為任意測試地圖,選擇仿真環(huán)境中用戶需要的動態(tài)要素,這里的動態(tài)要素主要包括行人、其他行駛車輛、交通燈等;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院軟件研究所,未經(jīng)中國科學(xué)院軟件研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110082493.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





