[發(fā)明專利]基于目標分層雙感知域的強化學習的無人車路徑規(guī)劃方法有效
| 申請?zhí)枺?/td> | 202210495925.2 | 申請日: | 2022-05-09 |
| 公開(公告)號: | CN114578834B | 公開(公告)日: | 2022-07-26 |
| 發(fā)明(設(shè)計)人: | 呂曉旭;張釗;楊拓;任耘霄;段志生 | 申請(專利權(quán))人: | 北京大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 北京萬象新悅知識產(chǎn)權(quán)代理有限公司 11360 | 代理人: | 黃鳳茹 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 目標 分層 感知 強化 學習 無人 路徑 規(guī)劃 方法 | ||
1.一種基于目標分層雙感知域的強化學習的無人車路徑規(guī)劃方法,其特征是,考慮無人車的動力學約束;通過設(shè)定子目標層級縮小用于路徑規(guī)劃的地圖區(qū)域的維度;通過目標分層方法使得子目標層處在安全區(qū)走廊的中間部位;通過設(shè)置雙感知域包括障礙物感知域和目標發(fā)現(xiàn)域,將障礙物感知和目標發(fā)現(xiàn)分開解耦;由此建立基于目標分層的深度強化學習無人車路徑規(guī)劃網(wǎng)絡(luò)模型,實現(xiàn)基于目標分層雙感知域的深度強化學習的無人車路徑規(guī)劃;包括如下步驟:
步驟1,讀取無人車行駛區(qū)域的二維像素地圖,進行坐標轉(zhuǎn)換和全局對齊后獲得用于路徑規(guī)劃的世界地圖;從世界地圖中提取出障礙物位置,并獲取當前無人車的位置狀態(tài)和目標位置狀態(tài);
步驟2,根據(jù)世界地圖搜索得到一條可通行路徑,進一步得到沿所述可通行路徑的安全區(qū)走廊,根據(jù)安全區(qū)走廊,再使用目標分層方法獲得子目標點序列;
所述安全區(qū)走廊用于子目標點序列的生成和獎勵函數(shù)的定義;所述子目標點序列包括所有一級子目標點和二級子目標點;安全區(qū)走廊內(nèi)相鄰安全區(qū)的相互重疊部分的幾何中心點為一級子目標點;在兩個一級子目標點的連線間均勻分割出多個二級子目標點,兩個二級子目標點間的距離要小于無人車的最大轉(zhuǎn)彎半徑;
步驟3,建立基于無人車車體動力學和動力學約束的交互環(huán)境,建立圍繞無人車的障礙物感知域和目標發(fā)現(xiàn)域;
建立基于無人車車體動力學和動力學約束的交互環(huán)境;包括:
無人車的狀態(tài)定義為;無人車的動作定義為;
步驟311,將無人車車體動力學寫入無人車交互環(huán)境,表示為:
其中,是無人車的車后輪軸中心點P在世界坐標系中的位置坐標,是無人車相對于世界坐標系原點的方位角,是車在后輪軸中心處的速度,代表相應(yīng)的角速度,代表車輪的轉(zhuǎn)向角,代表無人車相應(yīng)的加速度,代表無人車的角加速度;分別代表前后輪之間的輪軸距,車寬,前懸長度,后懸長度;t是離散的時間步,dt是時間改變量,t+1是t時間步的下一個時間步,tan是正切函數(shù),表示時間步上界;cos為余弦函數(shù);sin為正弦函數(shù);
步驟312,進一步將無人車動力學約束加入到環(huán)境中,表示為:
和
其中,下標和代表對應(yīng)狀態(tài)量的最小值和最大值限制,下標和代表對應(yīng)狀態(tài)量的初始值和目標值;(0)表示相應(yīng)狀態(tài)量的時間步為0,代表初始時刻;()表示相應(yīng)狀態(tài)量的時間步為,代表到達目標時刻;
通過障礙物感知域得到感知點陣,獲得感知點陣的環(huán)境信息,即有無障礙物;
通過目標發(fā)現(xiàn)域獲取實際子目標點;目標發(fā)現(xiàn)域是由以車后輪軸中心點P為中心、以R為半徑的圓區(qū)域;其中R要大于無人車最大轉(zhuǎn)彎半徑的1.5倍以上; 基于步驟2得到的子目標點序列,目標發(fā)現(xiàn)域用來搜索得到無人車周圍在此域內(nèi)距離目標點最近的子目標點,將其作為無人車的實際子目標點,實際子目標點為無人車暫時行進要到達的點;在無人車不斷前進過程中,根據(jù)目標發(fā)現(xiàn)域內(nèi)不斷的出現(xiàn)離目標點更近的子目標點,實時地更新實際子目標點;
步驟4,建立無人車與環(huán)境交互的獎懲函數(shù),建立基于目標分層的深度強化學習無人車路徑規(guī)劃網(wǎng)絡(luò)模型并進行訓練;
無人車與環(huán)境交互的獎懲函數(shù)定義為:
其中,為靠近目標獎懲,為到達目標獎懲,為無人車朝向獎懲,為無人車碰撞獎懲,為無人車與障礙物距離獎懲,為加權(quán)因子;各個獎懲函數(shù)表示如下:
其中,為無人車的實際子目標點位置,是無人車到實際子目標點的距離,是判定無人車是否到達實際子目標點的范圍,是無人車距離最近障礙物的距離,是判定無人車碰是否撞到障礙物的范圍,是障礙物獎懲的作用閾值范圍,是增益常量,是取余符號;arctan為反正切函數(shù);為圓周率;
通過無人車與環(huán)境交互,收集到每一輪的狀態(tài)信息、動作信息和獎懲信息,將感知點陣有無障礙物的環(huán)境信息、實際子目標點以及無人車當前的位置狀態(tài),作為建立的神經(jīng)網(wǎng)絡(luò)模型的輸入,對深度神經(jīng)網(wǎng)絡(luò)進行訓練,得到訓練好的基于目標分層的深度強化學習無人車路徑規(guī)劃網(wǎng)絡(luò)模型;
步驟5,利用訓練好的深度強化學習路徑規(guī)劃網(wǎng)絡(luò)模型,輸入待規(guī)劃的無人車相應(yīng)數(shù)據(jù),模型輸出得到規(guī)劃好的平滑路徑;
通過上述步驟,即實現(xiàn)基于目標分層雙感知域的強化學習的無人車路徑規(guī)劃。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學,未經(jīng)北京大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210495925.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于策略的業(yè)務(wù)感知模型及感知方法
- 一種基于分區(qū)感知的無線通信系統(tǒng)頻譜感知方法
- 確定空閑頻段的方法和系統(tǒng)、中心節(jié)點和感知節(jié)點
- 感知無線網(wǎng)絡(luò)的共享協(xié)作頻譜感知方法、感知節(jié)點和匯聚中心
- 感知無線網(wǎng)絡(luò)的協(xié)作頻譜感知方法和感知節(jié)點
- 頻譜感知方法、頻譜感知設(shè)備和數(shù)據(jù)庫
- 基于認知數(shù)據(jù)庫和頻譜感知的頻譜共享方法及裝置
- 一種頂層感知限位組
- 一種自動駕駛汽車用升降式智能感知模塊
- 感知數(shù)據(jù)獲取方法和裝置





