[發(fā)明專利]基于場景切分和局部路徑規(guī)劃的駕駛控制策略訓練方法有效
| 申請?zhí)枺?/td> | 202010083122.7 | 申請日: | 2020-02-08 |
| 公開(公告)號: | CN111310919B | 公開(公告)日: | 2020-10-16 |
| 發(fā)明(設計)人: | 俞揚;秦熔均;余峰;劉亞文;范彧 | 申請(專利權)人: | 南棲仙策(南京)科技有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06F30/20;G06K9/62;G06Q10/04 |
| 代理公司: | 南京樂羽知行專利代理事務所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210038 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 場景 切分 局部 路徑 規(guī)劃 駕駛 控制 策略 訓練 方法 | ||
1.一種基于場景切分和局部路徑規(guī)劃的駕駛控制策略訓練方法,其特征在于,包括如下步驟:
步驟1,結合地圖信息,利用3D引擎生成自動駕駛仿真環(huán)境;
步驟2,根據地圖上可行道路及GPS信息,將區(qū)域內所有道路離散化為關鍵點序列,每個點用GPS坐標表示;
步驟3,將每個點空間位置上前后相鄰的點連接成的路徑曲線作為局部路段,并使用機器學習中方法對局部路段劃分到不同集合,每個路段僅屬于某一個集合;
步驟4,在每個路段結合局部GPS信息,使用搜索算法得到局部行駛路徑的關鍵點參考點列,根據當前車況,計算預瞄距離D,并選擇預瞄點,使用預瞄點作為駕駛指示信息;
步驟5,隨機采樣路段場景,結合預瞄點形成的駕駛指示信息,結合當前傳感器的觀測,進行駕駛策略搜索;
步驟5中:經過道路場景切分和局部路徑規(guī)劃后,其中的每一種道路場景,都有一個對應的路段集合,其中每一個路段通過局部路徑規(guī)劃,完成實時局部路徑規(guī)劃并得到當前位置的駕駛指示信息,每次從所有場景中采樣一個場景,進行駕駛策略搜索,并根據策略搜索的結果,優(yōu)先采樣當前策略成功率較低的路段,繼續(xù)進行策略搜索;
使用強化學習進行多場景駕駛策略搜索:
步驟1,用神經網絡構建初始策略模型,并為每種道路場景設置相同的權重wi=1;
步驟2,根據權重設置概率分布并按照該概率分布,采樣出一種道路場景,并從采樣出的場景集合中均勻隨機選取一條路段,重復采樣N次,得到N條路段;wi表示道路場景i的權重;
步驟3,在每條路段下,以隨機初始狀態(tài)S0,使用策略模型,結合局部路徑規(guī)劃及駕駛指示信息,執(zhí)行駕駛控制動作a,自動駕駛仿真環(huán)境返回下一時刻狀態(tài)S’及對應獎勵信息r,直到行駛完該路段,最后可得到N條形如(S0,a0,r0,S1,a1,r1,…,Sn)的交互軌跡;
步驟4,根據當前策略下的期望累積獎勵Ri=∑t=1γtrt,γ∈[0,1],i=1,2,...,N,并重新計算每種道路場景i的權重其中Ci為道路場景,使得當前期望收益較低的路段之后被采樣到的概率更大;
步驟5,使用強化學習算法,利用上述交互軌跡,進行策略優(yōu)化;
步驟6,重復步驟2~5,直到每種路段的期望收益都不再提高;
經過以上步驟搜索得到的駕駛策略模型可以結合局部路徑規(guī)劃,完成多種路段的駕駛任務。
2.如權利要求1所述的基于場景切分和局部路徑規(guī)劃的駕駛控制策略訓練方法,其特征在于,步驟3中使用聚類算法對局部路段進行劃分,對于關鍵點點集中每一個點Ni(i=1,2,...),根據前后相鄰點構成的外接圓計算該點的曲率ci,對每個點,選擇其前后各幾個點,按順序依次將每個點的曲率填充為一個向量特征,構成數(shù)據集D={x1,x2,…,xn}。
3.如權利要求2所述的基于場景切分和局部路徑規(guī)劃的駕駛控制策略訓練方法,其特征在于,使用聚類算法k-means對局部路段進行劃分:
首先,從數(shù)據集D中隨機選取k個樣本作為初始的k個聚類中心;
其次,為其余每個樣本計算到當前k個聚類中心的距離,并將當前樣本劃分到到聚類中心距離最小的類;
再次,重新計算每個聚類Ci的均值向量,作為新的聚類中心,然后,重復執(zhí)行以上兩步,直到聚類中心不再發(fā)生變化;
最后,輸出劃分完后的聚類作為道路場景切分結果。
4.如權利要求2所述的基于場景切分和局部路徑規(guī)劃的駕駛控制策略訓練方法,其特征在于,使用譜聚類算法對局部路段進行劃分
首先,根據樣本之間的相似度,構建鄰接矩陣W;
其次,計算拉普拉斯矩陣,L=diag(deg(W))-W,其中diag(deg(W))是將W每行元素求和,構造出的度矩陣,是一個對角矩陣;
然后,對上一步計算出的拉普拉斯矩陣進行特征值分解,取第2,3,…,m+1個特征值對應的特征向量,并列成矩陣U;
再次,U作為樣本特征為m維數(shù)據集,輸入k-means算法,得到k個聚類;
最后,輸出劃分完后的聚類作為道路場景切分結果。
5.如權利要求1所述的基于場景切分和局部路徑規(guī)劃的駕駛控制策略訓練方法,其特征在于,步驟4中:
首先,對于選定的局部道路場景中的路段x,使用搜索算法:搜索出局部道路行駛關鍵點序列Nlocal;
其次,根據當前位置和所在道路場景中的路段x中最近的點的曲率ci以及速度V,采用如下公式計算預瞄點距離D:
D2=min(max(I×V,J),K)
D=D1+D2,
其中,A,B,E,F,G,H,I,J,K為預定義系數(shù)或預定義常量;
再次,根據預瞄距離D選擇下一個預瞄點,同時從局部道路行駛關鍵點序列Nlocal中選取預瞄點前方的多個關鍵點坐標;
然后,根據選擇的坐標,將關鍵點坐標直接作為指示信息輸入策略模型,或者,通過預定義規(guī)則獲得指示信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南棲仙策(南京)科技有限公司,未經南棲仙策(南京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010083122.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自動快速仿形車床
- 下一篇:一種帶有壓緊結構的渦輪轉子裝置





