[發(fā)明專利]用稀疏化注意力輔助決策的嵌入式多智能體強(qiáng)化學(xué)習(xí)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210508557.0 | 申請(qǐng)日: | 2022-05-11 |
| 公開(kāi)(公告)號(hào): | CN114626499A | 公開(kāi)(公告)日: | 2022-06-14 |
| 發(fā)明(設(shè)計(jì))人: | 吳超;羅雙;李皓;王永恒 | 申請(qǐng)(專利權(quán))人: | 之江實(shí)驗(yàn)室;浙江大學(xué) |
| 主分類號(hào): | G06N3/00 | 分類號(hào): | G06N3/00;G06N20/00 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 33200 | 代理人: | 鄭海峰 |
| 地址: | 310023 浙江省杭州市余*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 稀疏 注意力 輔助 決策 嵌入式 智能 強(qiáng)化 學(xué)習(xí)方法 | ||
本發(fā)明公開(kāi)了一種用稀疏化注意力輔助決策的嵌入式多智能體強(qiáng)化學(xué)習(xí)方法,屬于強(qiáng)化學(xué)習(xí)技術(shù)領(lǐng)域。初始化多智能體的效用函數(shù)網(wǎng)絡(luò)參數(shù)、混合網(wǎng)絡(luò)參數(shù)和目標(biāo)混合網(wǎng)絡(luò)參數(shù);獲取每一個(gè)智能體的自注意力輸出和稀疏化注意力輸出;使用門控循環(huán)單元模塊編碼當(dāng)前觀測(cè)輸出,計(jì)算本地常規(guī)效用函數(shù)和本地稀疏效用函數(shù),分別輸入到混合網(wǎng)絡(luò)中,各自擬合得到常規(guī)全局價(jià)值函數(shù)和稀疏全局價(jià)值函數(shù),逐漸降低常規(guī)全局價(jià)值函數(shù)的權(quán)重,完成強(qiáng)化學(xué)習(xí)的訓(xùn)練。在決策推理階段,各個(gè)智能體根據(jù)本地觀測(cè)和自身效用函數(shù)來(lái)選擇動(dòng)作輸出給環(huán)境,從而與環(huán)境進(jìn)行交互。本發(fā)明可以嵌入到任何基于價(jià)值函數(shù)的MARL框架中,提升智能體決策的效率和精度。
技術(shù)領(lǐng)域
本發(fā)明屬于強(qiáng)化學(xué)習(xí)技術(shù)領(lǐng)域,尤其涉及一種用稀疏化注意力輔助決策的嵌入式多智能體強(qiáng)化學(xué)習(xí)方法。
背景技術(shù)
多智能體強(qiáng)化學(xué)習(xí)(MARL)為多個(gè)智能體共同解決復(fù)雜的順序決策問(wèn)題提供了一個(gè)框架,并且在機(jī)器人博弈、交通信號(hào)燈控制、自動(dòng)駕駛等領(lǐng)域有著非常廣泛的應(yīng)用。目前MARL中智能體間的關(guān)系可以分為完全合作型、完全競(jìng)爭(zhēng)型和非完全合作非完全競(jìng)爭(zhēng)型。
目前主流的MARL訓(xùn)練框架是采用集中式訓(xùn)練分布式執(zhí)行(CTDE)框架,在集中訓(xùn)練階段中,智能體的決策模型可以訪問(wèn)全局狀態(tài)信息以幫助其更好的探索不同的策略,但是在推理階段中,智能體僅僅根據(jù)自己的局部觀測(cè)進(jìn)行決策。CTDE框架執(zhí)行的原則是個(gè)體-全局-最大值原則(IGM),其保證了個(gè)體決策最優(yōu)與全局決策最優(yōu)之間的一致性,智能體可以通過(guò)最大化個(gè)體的效用函數(shù)從而使得整體團(tuán)隊(duì)獲得最優(yōu)的全局回報(bào)。因此在合作型MARL中,提升個(gè)體的效用函數(shù)會(huì)使得整體受益。
現(xiàn)有的基于價(jià)值函數(shù)的方法主要是VDN、QMIX、QPLEX等。VDN將智能體本地效用函數(shù)進(jìn)行求和來(lái)獲取全局價(jià)值函數(shù)。由于直接求和的方式使得表達(dá)因子分解能力較差,QMIX對(duì)VDN進(jìn)行了改進(jìn),通過(guò)混合網(wǎng)絡(luò)對(duì)智能體本地效用函數(shù)進(jìn)行非線性聚合,在保持個(gè)體和全局單調(diào)性約束的前提下,根據(jù)全局狀態(tài)信息生成權(quán)重。隨后QPLEX引入基于優(yōu)勢(shì)函數(shù)的方法,將本地效用函數(shù)Q拆解為狀態(tài)價(jià)值函數(shù)V和單獨(dú)的動(dòng)作價(jià)值函數(shù)A,從而減小狀態(tài)對(duì)決策的影響,更加關(guān)注不同動(dòng)作帶來(lái)的收益。上述基于價(jià)值函數(shù)的方法主要存在以下問(wèn)題:
(1)改進(jìn)主要是關(guān)于如何將智能體本地的效用函數(shù)聚合成全局價(jià)值函數(shù),沒(méi)有關(guān)注對(duì)智能體本身網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)。由于隨著MARL環(huán)境中智能體數(shù)目的增多,聯(lián)合動(dòng)作空間逐漸增大,導(dǎo)致智能體的探索更加困難。
(2)智能體通過(guò)自身觀測(cè)進(jìn)行決策,但由于智能體之間的交互是稀疏的,在同一時(shí)刻無(wú)需關(guān)注所有的個(gè)體,導(dǎo)致觀測(cè)中的不同個(gè)體對(duì)決策的影響力是不同的,且重要性隨著時(shí)間變化而改變。
(3)注意力機(jī)制的直接引入有利于幫助智能體對(duì)不同的個(gè)體分配不同的注意力,但由于傳統(tǒng)的注意力機(jī)制采用softmax激活函數(shù),無(wú)法完全忽略不相關(guān)個(gè)體;然而若直接采用稀疏化方法對(duì)不相關(guān)實(shí)體置零,則會(huì)使得智能體無(wú)法探索更多的策略,且訓(xùn)練初期智能體模型難以分辨哪些個(gè)體是更加重要的。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)的缺陷,解決多智能體強(qiáng)化學(xué)習(xí)中隨著智能體數(shù)目增多導(dǎo)致聯(lián)合動(dòng)作空間過(guò)大、探索困難的問(wèn)題,本發(fā)明提出了一種用稀疏化注意力輔助決策的嵌入式多智能體強(qiáng)化學(xué)習(xí)方法,在智能體效用函數(shù)中引入了稀疏化注意力機(jī)制作為輔助決策,在保證沒(méi)有信息丟失的前提下幫助智能體關(guān)注視野范圍內(nèi)對(duì)決策具有更重要影響力的個(gè)體,引導(dǎo)智能體進(jìn)行科學(xué)決策,從而提升智能體決策的效率和精度。由于本發(fā)明是對(duì)智能體本地效用函數(shù)進(jìn)行的改進(jìn),因此可以嵌入到任何基于價(jià)值函數(shù)的MARL框架中,具有十分廣泛的應(yīng)用。
本發(fā)明是通過(guò)下述技術(shù)方案實(shí)現(xiàn)的:
一種用稀疏化注意力輔助決策的嵌入式多智能體強(qiáng)化學(xué)習(xí)方法,包括以下步驟:
步驟1:初始化多智能體的效用函數(shù)網(wǎng)絡(luò)參數(shù)、混合網(wǎng)絡(luò)參數(shù)和目標(biāo)混合網(wǎng)絡(luò)參數(shù);
步驟2:將每一個(gè)智能體當(dāng)前時(shí)刻的本地觀測(cè)進(jìn)行編碼,得到本地觀測(cè)編碼向量,分別利用自注意力和稀疏注意力獲取每一個(gè)智能體的自注意力輸出和稀疏化注意力輸出;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于之江實(shí)驗(yàn)室;浙江大學(xué),未經(jīng)之江實(shí)驗(yàn)室;浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210508557.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 基于粒子濾波視覺(jué)注意力模型的運(yùn)動(dòng)目標(biāo)檢測(cè)方法
- 一種評(píng)測(cè)注意力狀態(tài)的方法及裝置
- 注意力測(cè)評(píng)方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 兒童注意力評(píng)估系統(tǒng)及其方法
- 一種注意力檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種注意力識(shí)別方法和裝置
- 一種可靠的用戶注意力監(jiān)測(cè)估計(jì)表示模型
- 注意力特征圖獲取方法及裝置、目標(biāo)檢測(cè)的方法及裝置
- 基于通道增強(qiáng)的雙注意力生成對(duì)抗網(wǎng)絡(luò)及圖像生成方法
- 一種文本情感分析模型的優(yōu)化方法及裝置
- 決策協(xié)調(diào)方法、執(zhí)行裝置和決策協(xié)調(diào)器
- 一種基于循環(huán)更新模式的決策樹(shù)構(gòu)建方法
- 一種基于群決策的建筑項(xiàng)目決策系統(tǒng)及決策方法
- 一種基于反射弧的智慧大腦決策系統(tǒng)及決策方法
- 一種三維消防指揮決策輔助系統(tǒng)
- 一種決策方法、系統(tǒng)以及電子設(shè)備
- 基于決策引擎和模型平臺(tái)的業(yè)務(wù)決策邏輯更新方法
- 一種雙層優(yōu)先級(jí)決策系統(tǒng)
- 一種應(yīng)用程序的業(yè)務(wù)執(zhí)行方法、裝置及電子設(shè)備
- 基于區(qū)塊鏈的決策方法及裝置和電子設(shè)備





