[發(fā)明專(zhuān)利]一種基于知識(shí)驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)決策方法、系統(tǒng)及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202310089073.1 | 申請(qǐng)日: | 2023-02-03 |
| 公開(kāi)(公告)號(hào): | CN116090549A | 公開(kāi)(公告)日: | 2023-05-09 |
| 發(fā)明(設(shè)計(jì))人: | 殷昌盛;楊若鵬;楊遠(yuǎn)濤;魯義威;韋文夏;石永琪;盧穩(wěn)新;何渤 | 申請(qǐng)(專(zhuān)利權(quán))人: | 中國(guó)人民解放軍國(guó)防科技大學(xué) |
| 主分類(lèi)號(hào): | G06N3/092 | 分類(lèi)號(hào): | G06N3/092;G06N3/09;G06N3/094;G06N3/042;G06N3/0475 |
| 代理公司: | 武漢東喻專(zhuān)利代理事務(wù)所(普通合伙) 42224 | 代理人: | 張英 |
| 地址: | 410073 湖*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 知識(shí) 驅(qū)動(dòng) 智能 強(qiáng)化 學(xué)習(xí) 決策 方法 系統(tǒng) 存儲(chǔ) 介質(zhì) | ||
本發(fā)明公開(kāi)了一種基于知識(shí)驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)決策方法,該方法包括:將基于知識(shí)重構(gòu)的策略初始優(yōu)化引入智能體初始化步驟中,構(gòu)成強(qiáng)化學(xué)習(xí)的初始階段;將基于知識(shí)導(dǎo)向的獎(jiǎng)勵(lì)函數(shù)塑形引入強(qiáng)化學(xué)習(xí)過(guò)程中;獲取樣本數(shù)據(jù)集,訓(xùn)練并更新神經(jīng)網(wǎng)絡(luò),產(chǎn)生輸出策略;收集輸出策略,利用輸出策略構(gòu)建基于虛擬自博弈的聯(lián)盟訓(xùn)練,將聯(lián)盟訓(xùn)練結(jié)果用于更新智能體策略和對(duì)手池;停止訓(xùn)練后輸出最終策略。本發(fā)明針對(duì)復(fù)雜策略空間下智能決策模型訓(xùn)練效率問(wèn)題等現(xiàn)實(shí)問(wèn)題,圍繞獎(jiǎng)勵(lì)稀疏延時(shí)、探索盲目性和不穩(wěn)定性三個(gè)問(wèn)題分別采取上述方法,可以有效提升了多智能體強(qiáng)化學(xué)習(xí)的效率和智能決策模型水平,實(shí)現(xiàn)了一種基于知識(shí)驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)決策方法。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,更具體地,涉及一種基于知識(shí)驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)決策方法、系統(tǒng)及存儲(chǔ)介質(zhì)。
背景技術(shù)
近年來(lái),以深度學(xué)習(xí)(deep?learning,DU)為核心的智能技術(shù)取得了長(zhǎng)足的進(jìn)步,特別是以深度強(qiáng)化學(xué)習(xí)(deep?reinforcement?learning,DRL)為代表的智能方法在解決雅達(dá)利游戲、棋類(lèi)博弈對(duì)抗、即時(shí)策略游戲(real-time?strategy,RTS)等決策問(wèn)題上取得了眾多超越人類(lèi)水平的成果,使得面向自主認(rèn)知的智能決策有望得到進(jìn)一步發(fā)展,并取得關(guān)鍵性突破。強(qiáng)化學(xué)習(xí)(reinforcement?learning,RL)作為解決序貫決策問(wèn)題的重要方法,其通過(guò)與環(huán)境的交互試錯(cuò)來(lái)學(xué)習(xí)策略,恰好契合了人類(lèi)的經(jīng)驗(yàn)學(xué)習(xí)和決策思維方式,可以有效解決樣本數(shù)據(jù)獲取難等問(wèn)題。
雖然強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)可以擬合表征較為復(fù)雜的策略模型,但是隨著網(wǎng)絡(luò)層數(shù)的增加和網(wǎng)絡(luò)參數(shù)的增加,網(wǎng)絡(luò)訓(xùn)練的計(jì)算量會(huì)呈指數(shù)級(jí)增長(zhǎng)。特別是對(duì)于即時(shí)策略游戲中大規(guī)模聯(lián)合作戰(zhàn)指揮決策問(wèn)題,巨大的策略空間會(huì)帶來(lái)一系列連鎖問(wèn)題,嚴(yán)重影響模型的訓(xùn)練效率,主要體現(xiàn)在三個(gè)方面:
一是獎(jiǎng)勵(lì)稀疏延時(shí)導(dǎo)致學(xué)習(xí)效率低下。強(qiáng)化學(xué)習(xí)的學(xué)習(xí)目標(biāo)能否與作戰(zhàn)任務(wù)目標(biāo)統(tǒng)一,獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)起著決定性作用。戰(zhàn)爭(zhēng)游戲作為典型復(fù)雜問(wèn)題,以自然語(yǔ)言形式表征的作戰(zhàn)目標(biāo)卻很難直接轉(zhuǎn)換成準(zhǔn)確的獎(jiǎng)勵(lì)函數(shù),同時(shí)由于作戰(zhàn)影響因素的復(fù)雜性,對(duì)于單個(gè)動(dòng)作行為很難給出即時(shí)準(zhǔn)確的反饋,即獎(jiǎng)勵(lì)函數(shù)存在反饋稀疏、延遲和不準(zhǔn)確的問(wèn)題,嚴(yán)重影響強(qiáng)化學(xué)習(xí)的效率。
二是探索盲目性導(dǎo)致訓(xùn)練難以收斂。強(qiáng)化學(xué)習(xí)的“試錯(cuò)”機(jī)制雖然可以有效解決作戰(zhàn)樣本數(shù)據(jù)缺乏問(wèn)題,但這種盲目性也帶來(lái)學(xué)習(xí)效率低的問(wèn)題。特別是在復(fù)雜大規(guī)模作戰(zhàn)背景下,決策空間巨大,在訓(xùn)練初始階段盲目試錯(cuò)機(jī)制的效率低問(wèn)題就更為明顯,甚至根本無(wú)法得到有效的樣本數(shù)據(jù)。
三是不穩(wěn)定性導(dǎo)致策略魯棒性不夠。強(qiáng)化學(xué)習(xí)是通過(guò)自博弈形式得到樣本數(shù)據(jù),所以其抽樣得到的訓(xùn)練樣本質(zhì)量完全取決于自博弈階段智能體水平。而智能體的策略學(xué)習(xí)是通過(guò)在策略空間中不斷地探索與利用實(shí)現(xiàn),而復(fù)雜策略空間下如果探索有限則會(huì)使得智能體策略具有片面局限性,即模型性能的不穩(wěn)定性,反之大量的探索又會(huì)導(dǎo)致模型難以收斂,即模型訓(xùn)練的不穩(wěn)定性,最終都會(huì)降低智能體策略的魯棒性。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)的至少一個(gè)缺陷或改進(jìn)需求,本發(fā)明提供了一種基于知識(shí)驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)決策方法、系統(tǒng)及存儲(chǔ)介質(zhì),用以解決上述問(wèn)題中的至少一個(gè)。
為實(shí)現(xiàn)上述目的,按照本發(fā)明的第一個(gè)方面,提供了一種基于知識(shí)驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)決策方法,該方法包括:
S1.將基于知識(shí)重構(gòu)的策略初始優(yōu)化引入智能體初始化步驟中,構(gòu)成強(qiáng)化學(xué)習(xí)的初始階段;
S2.將基于知識(shí)導(dǎo)向的獎(jiǎng)勵(lì)函數(shù)塑形引入強(qiáng)化學(xué)習(xí)過(guò)程中;
S3.獲取所述S2步驟的樣本數(shù)據(jù)集,訓(xùn)練并更新神經(jīng)網(wǎng)絡(luò),產(chǎn)生輸出策略;
S4.收集所述S3步驟的所述輸出策略,利用所述輸出策略構(gòu)建基于虛擬自博弈的聯(lián)盟訓(xùn)練,將所述聯(lián)盟訓(xùn)練結(jié)果用于更新智能體策略和對(duì)手池;
S5.停止訓(xùn)練后,輸出最終策略。
進(jìn)一步地,上述基于知識(shí)驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)決策方法還包括:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于中國(guó)人民解放軍國(guó)防科技大學(xué),未經(jīng)中國(guó)人民解放軍國(guó)防科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310089073.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
- 基于本體的知識(shí)地圖繪制系統(tǒng)
- 基于知識(shí)地圖的領(lǐng)域知識(shí)瀏覽方法
- 一種基于知識(shí)本體的知識(shí)體系的建模方法
- 一種知識(shí)工程系統(tǒng)
- 知識(shí)自動(dòng)化系統(tǒng)和方法以及存儲(chǔ)器
- 基于SOLR的知識(shí)管理系統(tǒng)
- 基于知識(shí)節(jié)點(diǎn)所屬度的知識(shí)圖譜構(gòu)建方法和裝置
- 一種基于知識(shí)圖譜的稅務(wù)知識(shí)庫(kù)系統(tǒng)
- 一種智聯(lián)網(wǎng)中的網(wǎng)絡(luò)知識(shí)統(tǒng)一表征架構(gòu)及實(shí)現(xiàn)方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)
- 電流驅(qū)動(dòng)裝置的驅(qū)動(dòng)電路,電流驅(qū)動(dòng)設(shè)備及其驅(qū)動(dòng)方法
- 驅(qū)動(dòng)電路、驅(qū)動(dòng)模塊以及電機(jī)驅(qū)動(dòng)裝置
- 驅(qū)動(dòng)電路、驅(qū)動(dòng)模塊和電機(jī)驅(qū)動(dòng)設(shè)備
- 驅(qū)動(dòng)單元、驅(qū)動(dòng)方法、驅(qū)動(dòng)電路及顯示面板
- 驅(qū)動(dòng)電路、驅(qū)動(dòng)芯片及其驅(qū)動(dòng)方法
- 驅(qū)動(dòng)電機(jī)(電驅(qū)動(dòng))
- 驅(qū)動(dòng)電機(jī)(節(jié)能驅(qū)動(dòng))
- 驅(qū)動(dòng)電機(jī)(設(shè)備驅(qū)動(dòng))
- 驅(qū)動(dòng)機(jī)(驅(qū)動(dòng)軸)
- 驅(qū)動(dòng)機(jī)(電驅(qū)動(dòng))





