[發(fā)明專利]車輛避障方法和裝置有效
| 申請?zhí)枺?/td> | 201710790602.5 | 申請日: | 2017-09-05 |
| 公開(公告)號: | CN107491072B | 公開(公告)日: | 2021-03-30 |
| 發(fā)明(設(shè)計)人: | 鄭超;郁浩;閆泳杉;唐坤;張云飛;姜雨 | 申請(專利權(quán))人: | 百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 北京英賽嘉華知識產(chǎn)權(quán)代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 車輛 方法 裝置 | ||
本申請公開了車輛避障方法和裝置。車輛避障方法的一具體實施方式包括:獲取車輛的車載傳感器采集的行駛數(shù)據(jù),所述行駛數(shù)據(jù)包括行駛路徑的障礙物信息和所述車輛的傳感器數(shù)據(jù);基于所述行駛數(shù)據(jù),利用避障策略模型確定避障操控指令,所述避障策略模型是基于歷史避障記錄、采用深度增強學習算法以端到端的方式訓練得出的;將所述避障操控指令發(fā)送至對應(yīng)的操控系統(tǒng),以供所述操控系統(tǒng)執(zhí)行相應(yīng)的避障操作。該實施方式可以提升車輛避障的成功率。
技術(shù)領(lǐng)域
本申請涉及車輛控制技術(shù)領(lǐng)域,具體涉及車輛的行駛安全控制技術(shù)領(lǐng)域,尤其涉及車輛避障方法和裝置。
背景技術(shù)
隨著深度學習技術(shù)的迅速發(fā)展、人工智能領(lǐng)域的深入研究,給汽車工業(yè)帶來革命性的變化。
自動駕駛,是在沒有任何人類主動的操作下,利用電腦自動安全地操作機動車輛的技術(shù)。在車輛行駛過程中碰到障礙物時,現(xiàn)有的自動駕駛技術(shù)需要首先需要利用目標識別技術(shù)對障礙物進行識別,并基于預先定義的規(guī)則或基于模仿學習得出的深度學習系統(tǒng)確定避障策略。然而現(xiàn)有的自動駕駛技術(shù)的避障操作只能覆蓋有限情況下的道路狀況,并不具有推理能力,很難在實際道路中應(yīng)對各種復雜的場景,避障成功率有待提升。
發(fā)明內(nèi)容
為了解決上述背景技術(shù)部分提到的一個或多個技術(shù)問題,本申請實施例提供了車輛避障方法和裝置。
第一方面,本申請實施例提供了一種車輛避障方法,包括:獲取車輛的車載傳感器采集的行駛數(shù)據(jù),行駛數(shù)據(jù)包括行駛路徑的障礙物信息和車輛的傳感器數(shù)據(jù);基于行駛數(shù)據(jù),利用避障策略模型確定避障操控指令,避障策略模型是基于歷史避障記錄、采用深度增強學習算法以端到端的方式訓練得出的;將避障操控指令發(fā)送至對應(yīng)的操控系統(tǒng),以供操控系統(tǒng)執(zhí)行相應(yīng)的避障操作。
在一些實施例中,上述方法還包括:基于歷史避障記錄、采用深度增強學習算法以端到端的方式訓練得出避障策略模型的步驟,其中,歷史避障記錄包括歷史避障結(jié)果、與歷史避障結(jié)果對應(yīng)的歷史行駛數(shù)據(jù)和歷史操控數(shù)據(jù);上述基于歷史避障記錄、采用深度增強學習算法訓練得出避障策略模型的步驟包括:獲取各歷史避障結(jié)果的歷史評估指數(shù);基于歷史行駛數(shù)據(jù)、歷史評估指數(shù)和歷史操控數(shù)據(jù)進行深度增強學習,以得出使避障結(jié)果最優(yōu)的避障策略模型。
在一些實施例中,上述基于歷史行駛數(shù)據(jù)、歷史評估指數(shù)和歷史操控數(shù)據(jù)進行深度增強學習,以得出使避障結(jié)果最優(yōu)的避障策略模型的策略參數(shù),包括:對每條歷史避障記錄,將歷史行駛數(shù)據(jù)作為狀態(tài)數(shù)據(jù),歷史操控數(shù)據(jù)作為操作數(shù)據(jù),歷史評估指數(shù)作為價值數(shù)據(jù);利用歷史避障記錄構(gòu)建學習軌跡,學習軌跡包括與各條歷史避障記錄一一對應(yīng)的多個軌跡點,每個軌跡點包括對應(yīng)的狀態(tài)數(shù)據(jù)、操作數(shù)據(jù)以及價值數(shù)據(jù);基于學習軌跡以及總價值數(shù)據(jù)計算總價值數(shù)據(jù)的期望關(guān)于策略參數(shù)的梯度,其中,策略參數(shù)用于將狀態(tài)數(shù)據(jù)映射至操作數(shù)據(jù);基于總價值數(shù)據(jù)的期望關(guān)于策略參數(shù)的梯度對策略參數(shù)進行調(diào)整,生成避障策略模型。
在一些實施例中,上述基于行駛數(shù)據(jù),利用避障策略模型確定避障操控指令,包括:將車載傳感器采集的行駛數(shù)據(jù)作為當前的狀態(tài)數(shù)據(jù)輸入避障策略模型;基于調(diào)整后的策略參數(shù)將當前的狀態(tài)數(shù)據(jù)映射至當前的操作數(shù)據(jù),作為避障操控指令。
在一些實施例中,在將避障操控指令發(fā)送至對應(yīng)的操控系統(tǒng)之后,上述方法還包括:獲取車輛的當前避障結(jié)果的評估指數(shù),將當前避障結(jié)果的評價指數(shù)作為當前價值數(shù)據(jù);基于當前的狀態(tài)數(shù)據(jù)、當前的操作數(shù)據(jù)以及當前價值數(shù)據(jù)更新學習軌跡、總價值數(shù)據(jù)以及總價值數(shù)據(jù)的期望;基于更新后的學習軌跡以及各價值數(shù)據(jù)之和計算更新后的總價值數(shù)據(jù)的期望關(guān)于策略參數(shù)的梯度;基于更新后的總價值數(shù)據(jù)的期望關(guān)于策略參數(shù)的梯度對策略參數(shù)進行調(diào)整。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710790602.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





