[發(fā)明專利]變道策略確定方法、裝置及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010528345.X | 申請日: | 2020-06-11 |
| 公開(公告)號: | CN111645687A | 公開(公告)日: | 2020-09-11 |
| 發(fā)明(設(shè)計)人: | 喬曉利 | 申請(專利權(quán))人: | 知行汽車科技(蘇州)有限公司 |
| 主分類號: | B60W30/18 | 分類號: | B60W30/18;B60W60/00;B60W40/00;B60W50/00 |
| 代理公司: | 蘇州謹(jǐn)和知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 32295 | 代理人: | 葉棟 |
| 地址: | 215123 江蘇省蘇州市蘇州工業(yè)園區(qū)*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 策略 確定 方法 裝置 存儲 介質(zhì) | ||
1.一種變道策略確定方法,其特征在于,所述方法包括:
獲取當(dāng)前時刻采集到的環(huán)境信息;
基于蒙特卡羅樹搜索MCTS算法以所述環(huán)境信息作為根節(jié)點(diǎn)生成多條模擬路徑,每條模擬路徑包括m層子節(jié)點(diǎn)和不同層的節(jié)點(diǎn)間的傳輸路徑,每條傳輸路徑用于指示相鄰兩層節(jié)點(diǎn)之間的變道策略;每個子節(jié)點(diǎn)用于指示從所述子節(jié)點(diǎn)的父節(jié)點(diǎn)對應(yīng)的環(huán)境信息執(zhí)行變道策略后得到的變道后的環(huán)境信息,所述m為正整數(shù);
獲取所述多條模擬路徑中每個子節(jié)點(diǎn)的累計質(zhì)量得分和訪問次數(shù);
基于所述累計質(zhì)量得分和訪問次數(shù)計算每個子節(jié)點(diǎn)的置信上限UCB值;
將UCB值最大的目標(biāo)子節(jié)點(diǎn)與所述目標(biāo)子節(jié)點(diǎn)的父節(jié)點(diǎn)之間的變道策略確定為所述環(huán)境信息的變道策略。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述變道策略的數(shù)量為n種,所述n為大于1的整數(shù),所述基于MCTS算法以所述環(huán)境信息作為根節(jié)點(diǎn)生成多條模擬路徑,包括:
對于第k層節(jié)點(diǎn),確定與所述第k層節(jié)點(diǎn)相連的n個第k+1層子節(jié)點(diǎn),不同的第k+1層子節(jié)點(diǎn)對應(yīng)的變道策略不同;所述第k層節(jié)點(diǎn)包括所述根節(jié)點(diǎn)和所述m層子節(jié)點(diǎn),1≤k<m;
在所述第k+1層子節(jié)點(diǎn)存在未搜索的子節(jié)點(diǎn)時,選擇未被搜索的第k+1層子節(jié)點(diǎn);計算選擇的第k+1層子節(jié)點(diǎn)的質(zhì)量得分,并記錄所述選擇的第k+1層子節(jié)點(diǎn)的訪問次數(shù),并令k=k+1,再次執(zhí)行所述對于第k層節(jié)點(diǎn),確定與所述第k層節(jié)點(diǎn)相連的n個第k+1層子節(jié)點(diǎn)的步驟;
在所述第k+1層子節(jié)點(diǎn)全部已搜索時,按照每個第k+1層子節(jié)點(diǎn)的UCB值從所述n個第k+1層子節(jié)點(diǎn)中選擇一個第k+1層子節(jié)點(diǎn);計算選擇的第k+1層子節(jié)點(diǎn)的質(zhì)量得分,并記錄所述選擇的第k+1層子節(jié)點(diǎn)的訪問次數(shù),并令k=k+1,再次執(zhí)行所述對于第k層節(jié)點(diǎn),確定與所述第k層節(jié)點(diǎn)相連的n個第k+1層子節(jié)點(diǎn)的步驟;
對于從根節(jié)點(diǎn)至第m層子節(jié)點(diǎn)均被搜索過的路徑,從第m層子節(jié)點(diǎn)開始,將每層子節(jié)點(diǎn)的質(zhì)量得分反向傳輸至所有的父節(jié)點(diǎn),得到所述路徑上每個子節(jié)點(diǎn)的累計質(zhì)量得分;基于每個子節(jié)點(diǎn)的累計質(zhì)量得分和訪問次數(shù)計算所述子節(jié)點(diǎn)的UCB值,得到模擬路徑,直至路徑模擬的迭代次數(shù)達(dá)到預(yù)設(shè)次數(shù)時停止。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述計算選擇的第k+1層子節(jié)點(diǎn)的質(zhì)量得分,包括:
基于預(yù)先訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型計算所述選擇的第k+1層子節(jié)點(diǎn)的質(zhì)量得分,所述神經(jīng)網(wǎng)絡(luò)模型基于多組訓(xùn)練數(shù)據(jù)訓(xùn)練得到,每組訓(xùn)練數(shù)據(jù)包括:變道前的第一訓(xùn)練環(huán)境信息、樣本變道策略、基于所述第一訓(xùn)練環(huán)境信息使用所述樣本變道策略變道后得到的第二訓(xùn)練環(huán)境信息、以及所述訓(xùn)練數(shù)據(jù)的樣本質(zhì)量得分。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述在所述第k+1層子節(jié)點(diǎn)存在未搜索的子節(jié)點(diǎn)時,選擇未被搜索的第k+1層子節(jié)點(diǎn),包括:
從未搜索的子節(jié)點(diǎn)中隨機(jī)選擇一個第k+1層子節(jié)點(diǎn)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述累計質(zhì)量得分和訪問次數(shù)計算每個子節(jié)點(diǎn)的置信上限UCB值,包括:
將每個子節(jié)點(diǎn)對應(yīng)的累計質(zhì)量得分和訪問次數(shù)輸入預(yù)設(shè)的參數(shù)計算模型,得對應(yīng)子節(jié)點(diǎn)的UCB值。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述參數(shù)計算模型包括:
其中,v'表示當(dāng)前子節(jié)點(diǎn),v表示所述子節(jié)點(diǎn)的父節(jié)點(diǎn),Q(v’)表示所述子節(jié)點(diǎn)的累計質(zhì)量得分,N(v’)表示所述子節(jié)點(diǎn)的訪問次數(shù),N(v)表示所述父節(jié)點(diǎn)的訪問次數(shù),c為常量參數(shù)。
7.根據(jù)權(quán)利要求1至6任一所述的方法,其特征在于,所述環(huán)境信息包括當(dāng)前行駛車輛的道路信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于知行汽車科技(蘇州)有限公司,未經(jīng)知行汽車科技(蘇州)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010528345.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種計算機(jī)網(wǎng)絡(luò)策略管理系統(tǒng)及策略管理方法
- 應(yīng)用于合法監(jiān)聽系統(tǒng)的網(wǎng)絡(luò)策略架構(gòu)及其策略處理方法
- 分發(fā)策略的方法、系統(tǒng)和策略分發(fā)實(shí)體
- 策略控制方法、策略規(guī)則決策設(shè)備和策略控制設(shè)備
- 用于控制QoS策略沖突的方法、設(shè)備和系統(tǒng)
- 策略融合的方法、UE及服務(wù)器
- 策略調(diào)整觸發(fā)、策略調(diào)整方法及裝置、策略調(diào)整系統(tǒng)
- 設(shè)備策略管理器
- 策略組中的策略評估、策略選擇方法及裝置
- 策略集群分發(fā)匹配方法、系統(tǒng)及計算機(jī)可讀存儲介質(zhì)





