[發(fā)明專利]一種基于時(shí)序差分學(xué)習(xí)的可靠性導(dǎo)航方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210848733.5 | 申請(qǐng)日: | 2022-07-19 |
| 公開(kāi)(公告)號(hào): | CN115203592A | 公開(kāi)(公告)日: | 2022-10-18 |
| 發(fā)明(設(shè)計(jì))人: | 郭宏亮;師睿 | 申請(qǐng)(專利權(quán))人: | 郭宏亮 |
| 主分類號(hào): | G06F16/9537 | 分類號(hào): | G06F16/9537;G06F16/29;G06N20/00;G01C21/34;G01C21/20 |
| 代理公司: | 北京正華智誠(chéng)專利代理事務(wù)所(普通合伙) 11870 | 代理人: | 呂春艷 |
| 地址: | 610051 四川*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 時(shí)序 學(xué)習(xí) 可靠性 導(dǎo)航 方法 | ||
1.一種基于時(shí)序差分學(xué)習(xí)的可靠性導(dǎo)航方法,其特征在于,包括以下步驟:
步驟A:建立決策過(guò)程模型,并生成數(shù)個(gè)節(jié)點(diǎn)s和數(shù)個(gè)指定動(dòng)作a;
步驟B:制定決策列表策略π,采用π確定數(shù)個(gè)指定動(dòng)作a的優(yōu)先級(jí);
步驟C:基于決策過(guò)程模型,采集得到當(dāng)前行駛代價(jià)r的樣本值,并分別求取Gπ(s)和Gπ(s,a)的均值估計(jì)值與方差估計(jì)值;其中,所述Gπ(s)為智能體從節(jié)點(diǎn)s出發(fā),并遵守策略π直到到達(dá)終點(diǎn)累計(jì)的獎(jiǎng)勵(lì)之和;所述Gπ(s,a)為智能體從節(jié)點(diǎn)s出發(fā),并執(zhí)行動(dòng)作a后遵守策略π直到到達(dá)終點(diǎn),累計(jì)收集的獎(jiǎng)勵(lì)之和;
步驟D:根據(jù)步驟C中的均值估計(jì)值和方差估計(jì)值計(jì)算線性組合值Zπ(s,a);將上述線性組合值代入步驟B中的決策列表策略π,并更新決策列表策略得到π';
步驟E:循環(huán)步驟B-步驟D,直到完成規(guī)定學(xué)習(xí)次數(shù),輸出更新后的決策列表策略π',導(dǎo)航根據(jù)π'進(jìn)行實(shí)時(shí)指引,直到智能體到達(dá)終點(diǎn)。
2.根據(jù)權(quán)利要求1所述的基于時(shí)序差分學(xué)習(xí)的可靠性導(dǎo)航方法,其特征在于,所述步驟A的具體步驟為:
步驟A1:輸入地圖Graph和導(dǎo)航的起點(diǎn)o、終點(diǎn)d;
步驟A2:設(shè)定最大學(xué)習(xí)次數(shù)Nt;
步驟A3:初始化數(shù)據(jù),使學(xué)習(xí)次數(shù)i=0。
3.根據(jù)權(quán)利要求1所述的基于時(shí)序差分學(xué)習(xí)的可靠性導(dǎo)航方法,其特征在于,所述步驟B的具體步驟為:
步驟B1:收集所有邊的集合作為最大動(dòng)作集M,并根據(jù)計(jì)算線性組合值從小到大的順序排列M中的各個(gè)指定動(dòng)作a,得到按照優(yōu)先級(jí)順序排列的集合π(s)={a1、a2、a3......ak};
步驟B2:選擇其中優(yōu)先級(jí)最高的指定動(dòng)作a1,若a1所對(duì)應(yīng)的邊不可通行,則順延選用下一優(yōu)先級(jí)的指定動(dòng)作。
4.根據(jù)權(quán)利要求1所述的基于時(shí)序差分學(xué)習(xí)的可靠性導(dǎo)航方法,其特征在于,所述步驟C的具體步驟為:
步驟C1:實(shí)時(shí)采集當(dāng)前行駛代價(jià)r的樣本值;
步驟C2:通過(guò)步驟C1中的r對(duì)Gπ(s)和Gπ(s,a)的均值估計(jì)值進(jìn)行實(shí)時(shí)更新;
步驟C3:通過(guò)步驟C1中的r對(duì)Gπ(s)和Gπ(s,a)的方差估計(jì)值進(jìn)行實(shí)時(shí)更新。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于郭宏亮,未經(jīng)郭宏亮許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210848733.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種LED顯示系統(tǒng)的數(shù)據(jù)通信方法
- 用于顯示器的時(shí)序控制器
- 基于靜態(tài)分析的異步電路時(shí)序檢查方法
- 時(shí)序信號(hào)生成方法、裝置、邏輯電路板及存儲(chǔ)介質(zhì)
- 一種視頻的時(shí)序動(dòng)作檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 調(diào)整時(shí)序的方法、裝置、計(jì)算機(jī)設(shè)備及介質(zhì)
- 一種時(shí)序分析方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 基于人工智能的數(shù)據(jù)檢測(cè)方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 一種時(shí)序電路優(yōu)化方法、裝置及其存儲(chǔ)介質(zhì)
- 一種基于分布式的靜態(tài)時(shí)序分析方法
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





