[發(fā)明專利]基于認(rèn)知行為知識(shí)的分布式近端策略優(yōu)化方法及其應(yīng)用有效
| 申請(qǐng)?zhí)枺?/td> | 202110249707.6 | 申請(qǐng)日: | 2021-03-08 |
| 公開(公告)號(hào): | CN112906233B | 公開(公告)日: | 2023-04-18 |
| 發(fā)明(設(shè)計(jì))人: | 黃健;陳浩;李嘉祥;劉權(quán);龔建興;韓潤(rùn)海 | 申請(qǐng)(專利權(quán))人: | 中國(guó)人民解放軍國(guó)防科技大學(xué) |
| 主分類號(hào): | G06F30/20 | 分類號(hào): | G06F30/20;G06F30/15;G06N20/00;G06N5/00 |
| 代理公司: | 北京風(fēng)雅頌專利代理有限公司 11403 | 代理人: | 曾志鵬 |
| 地址: | 410003 湖*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 認(rèn)知 行為 知識(shí) 分布式 策略 優(yōu)化 方法 及其 應(yīng)用 | ||
本發(fā)明公開了一種基于認(rèn)知行為知識(shí)的分布式近端策略優(yōu)化方法及其應(yīng)用,方法包括以下步驟:采用認(rèn)知行為知識(shí)建立Agent的認(rèn)知行為模型,并將該認(rèn)知行為模型引入深度強(qiáng)化學(xué)習(xí),構(gòu)建基于認(rèn)知行為知識(shí)的深度強(qiáng)化學(xué)習(xí)框架;基于上述深度強(qiáng)化學(xué)習(xí)框架,提出基于認(rèn)知行為知識(shí)的分布式近端策略優(yōu)化算法;定量化設(shè)計(jì)認(rèn)知行為模型對(duì)Agent策略更新的引導(dǎo)方式,實(shí)現(xiàn)Agent在認(rèn)知行為知識(shí)基礎(chǔ)上持續(xù)學(xué)習(xí)。本發(fā)明提出的方法可以有效利用認(rèn)知行為知識(shí),并在此基礎(chǔ)上進(jìn)行策略更新,從而提高Agent的學(xué)習(xí)效率。
技術(shù)領(lǐng)域
本發(fā)明涉及深度強(qiáng)化學(xué)習(xí)技術(shù)領(lǐng)域,具體涉及一種基于認(rèn)知行為知識(shí)的分布式近端策略優(yōu)化方法及其在空戰(zhàn)機(jī)動(dòng)決策中的應(yīng)用。
背景技術(shù)
近年來,深度強(qiáng)化學(xué)習(xí)在視頻游戲、交通信號(hào)燈控制、機(jī)器人等領(lǐng)域取得了廣泛應(yīng)用。然而,強(qiáng)化學(xué)習(xí)算法需要大量的采樣并通過試錯(cuò)的方式不斷優(yōu)化Agent的策略。但是,巨大的采樣復(fù)雜度限制了強(qiáng)化學(xué)習(xí)算法在實(shí)際問題中的應(yīng)用,而運(yùn)用已有的認(rèn)知行為知識(shí)加速Agent策略學(xué)習(xí)是解決上述問題的有效手段。
人類與學(xué)習(xí)型Agent在認(rèn)知水平、認(rèn)知方式以及行為方式上存在較大差異,將人的認(rèn)知行為知識(shí)描述為人和Agent可以相互理解的形式并實(shí)現(xiàn)高效的認(rèn)知行為知識(shí)融合非常困難。為提升學(xué)習(xí)效率,在學(xué)習(xí)過程中,需要將人的認(rèn)知行為知識(shí)介入深度強(qiáng)化學(xué)習(xí),進(jìn)而在跨認(rèn)知層次上實(shí)現(xiàn)相互補(bǔ)充,其本質(zhì)是協(xié)調(diào)先驗(yàn)認(rèn)知行為知識(shí)和學(xué)習(xí)的關(guān)系。因此,如何利用Agent系統(tǒng)的表示方法,將認(rèn)知行為知識(shí)描述為形式化的、可被Agent理解的認(rèn)知行為模型,同時(shí)在此基礎(chǔ)上,將認(rèn)知行為模型融入深度強(qiáng)化學(xué)習(xí),使Agent實(shí)現(xiàn)認(rèn)知行為之上的再學(xué)習(xí)是強(qiáng)化學(xué)習(xí)中需要解決的難題。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是克服現(xiàn)有技術(shù)的不足而提供一種基于認(rèn)知行為知識(shí)的分布式近端策略優(yōu)化方法及其應(yīng)用,以合理有效地利用已有的先驗(yàn)知識(shí)加速多Agent系統(tǒng)學(xué)習(xí)。
為解決上述技術(shù)問題,本發(fā)明的內(nèi)容包括:
基于認(rèn)知行為知識(shí)的分布式近端策略優(yōu)化方法,包括以下步驟:
S1.采用認(rèn)知行為知識(shí)建立Agent的認(rèn)知行為模型,并將該認(rèn)知行為模型引入深度強(qiáng)化學(xué)習(xí),構(gòu)建基于認(rèn)知行為知識(shí)的深度強(qiáng)化學(xué)習(xí)框架;
S2.對(duì)于上述深度強(qiáng)化學(xué)習(xí)框架,構(gòu)建基于認(rèn)知行為知識(shí)的分布式近端策略優(yōu)化算法;
S3.定量化設(shè)計(jì)認(rèn)知行為模型對(duì)Agent策略更新的引導(dǎo)方式,實(shí)現(xiàn)Agent在認(rèn)知行為知識(shí)基礎(chǔ)上持續(xù)學(xué)習(xí)。
進(jìn)一步的,所述步驟S1中,所述Agent的認(rèn)知行為模型以當(dāng)前的環(huán)境信息作為狀態(tài)輸入,通過知識(shí)集理解當(dāng)前狀態(tài),并修改自身的信念集和任務(wù)集,在此基礎(chǔ)上,結(jié)合行為規(guī)則集做出決策,輸出宏動(dòng)作;所述宏動(dòng)作是一系列原子動(dòng)作合成的更高層次動(dòng)作。
進(jìn)一步的,所述步驟S1中,采用基于BDI的GOAL編程語(yǔ)言構(gòu)建Agent的認(rèn)知行為模型,采用Prolog語(yǔ)言描述認(rèn)知行為模型的內(nèi)部狀態(tài),以知識(shí)集代表一般性的概念以及領(lǐng)域內(nèi)的知識(shí),并將知識(shí)集應(yīng)用于信念集和任務(wù)集,信念集和任務(wù)集分別代表認(rèn)知行為模型對(duì)當(dāng)前時(shí)刻環(huán)境的認(rèn)識(shí)和Agent最終要達(dá)到的目標(biāo);動(dòng)作空間中的動(dòng)作以STRIPS語(yǔ)言描述,Agent執(zhí)行動(dòng)作后,環(huán)境發(fā)生改變,認(rèn)知行為模型通過感知環(huán)境發(fā)生改變的事件,進(jìn)而修改信念集和任務(wù)集;行為規(guī)則集具有beliefs+goals=action的形式,利用if-then和forall語(yǔ)句實(shí)現(xiàn);行為選擇是基于知識(shí)集、信念集、任務(wù)集和當(dāng)前狀態(tài)的規(guī)則系統(tǒng)。
進(jìn)一步的,所述步驟S2中,所述基于認(rèn)知行為知識(shí)的分布式近端策略優(yōu)化算法是將認(rèn)知行為模型融入分布式近端策略優(yōu)化算法的目標(biāo)函數(shù),將認(rèn)知行為知識(shí)作為啟發(fā)信息,用于指導(dǎo)強(qiáng)化學(xué)習(xí)前期Agent的策略更新,隨著時(shí)間步長(zhǎng)的推進(jìn),逐漸擺脫對(duì)認(rèn)知行為模型的依賴,轉(zhuǎn)而完全依靠強(qiáng)化學(xué)習(xí)機(jī)制更新策略。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)人民解放軍國(guó)防科技大學(xué),未經(jīng)中國(guó)人民解放軍國(guó)防科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110249707.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種認(rèn)知無(wú)線網(wǎng)絡(luò)系統(tǒng)和認(rèn)知網(wǎng)元設(shè)備
- 認(rèn)知無(wú)線電網(wǎng)絡(luò)中小區(qū)邊界用戶的頻譜共享方法
- 基于頻譜襯墊和填充的認(rèn)知OFDM網(wǎng)絡(luò)資源分配方法
- 認(rèn)知障礙數(shù)據(jù)處理方法以及處理系統(tǒng)
- 一種認(rèn)知無(wú)線電頻譜共享方法、設(shè)備和系統(tǒng)
- 認(rèn)知無(wú)線電系統(tǒng)的頻譜共享方法及管理終端
- 一種具有仿反饋調(diào)整機(jī)制的脫機(jī)手寫體漢字認(rèn)知方法
- 一種基于人件服務(wù)的態(tài)勢(shì)認(rèn)知計(jì)算架構(gòu)
- 一種認(rèn)知評(píng)估的信息化方法、系統(tǒng)及可讀存儲(chǔ)介質(zhì)
- 一種認(rèn)知負(fù)荷評(píng)價(jià)方法、裝置、系統(tǒng)及存儲(chǔ)介質(zhì)
- 過濾以及監(jiān)控程序的行為的方法
- 數(shù)據(jù)挖掘的方法和裝置
- 網(wǎng)絡(luò)異常行為檢測(cè)方法及檢測(cè)裝置
- 基于大數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的異常行為檢測(cè)方法和系統(tǒng)
- 用于檢測(cè)用戶行為的方法和裝置
- 行為數(shù)據(jù)分析方法及裝置
- 一種基于網(wǎng)絡(luò)的行為教育方法
- 網(wǎng)絡(luò)行為分類方法、設(shè)備、存儲(chǔ)介質(zhì)及裝置
- 一種在線支付業(yè)務(wù)行為的異常檢測(cè)方法、裝置及電子設(shè)備
- 行為采集方法及系統(tǒng)
- 基于本體的知識(shí)地圖繪制系統(tǒng)
- 基于知識(shí)地圖的領(lǐng)域知識(shí)瀏覽方法
- 一種基于知識(shí)本體的知識(shí)體系的建模方法
- 一種知識(shí)工程系統(tǒng)
- 知識(shí)自動(dòng)化系統(tǒng)和方法以及存儲(chǔ)器
- 基于SOLR的知識(shí)管理系統(tǒng)
- 基于知識(shí)節(jié)點(diǎn)所屬度的知識(shí)圖譜構(gòu)建方法和裝置
- 一種基于知識(shí)圖譜的稅務(wù)知識(shí)庫(kù)系統(tǒng)
- 一種智聯(lián)網(wǎng)中的網(wǎng)絡(luò)知識(shí)統(tǒng)一表征架構(gòu)及實(shí)現(xiàn)方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)





