[發(fā)明專利]一種多智能體深度強(qiáng)化學(xué)習(xí)方法、系統(tǒng)及應(yīng)用有效
| 申請?zhí)枺?/td> | 202110216405.9 | 申請日: | 2021-02-26 |
| 公開(公告)號: | CN112801290B | 公開(公告)日: | 2021-11-05 |
| 發(fā)明(設(shè)計)人: | 張婷婷;董會;張賽男 | 申請(專利權(quán))人: | 中國人民解放軍陸軍工程大學(xué) |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 南京縱橫知識產(chǎn)權(quán)代理有限公司 32224 | 代理人: | 何春廷 |
| 地址: | 210014 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 智能 深度 強(qiáng)化 學(xué)習(xí)方法 系統(tǒng) 應(yīng)用 | ||
本發(fā)明公開了一種基于分區(qū)經(jīng)驗與多線程交互的多智能體深度強(qiáng)化學(xué)習(xí)算法。首先,該算法使用分區(qū)緩存區(qū)的經(jīng)驗重放形式,通過劃分獎勵空間來區(qū)分正面經(jīng)驗、負(fù)面經(jīng)驗與中性經(jīng)驗,并在訓(xùn)練時使用分層隨機(jī)的采樣方式抽取這些經(jīng)驗數(shù)據(jù)。其次,算法運(yùn)用多線程的交互方式促進(jìn)了智能體與環(huán)境的試錯過程,通過智能體的多個克隆體并行的學(xué)習(xí)并整合它們的學(xué)習(xí)經(jīng)驗來訓(xùn)練網(wǎng)絡(luò)模型的參數(shù)。優(yōu)點是:本發(fā)明提出的基于緩存區(qū)重放與多線程交互的多智能體深度強(qiáng)化學(xué)習(xí)算法,結(jié)合分區(qū)經(jīng)驗緩存區(qū)及多線程交互方式的優(yōu)勢,引入到多智能體的深度強(qiáng)化學(xué)習(xí)算法中;在收斂速度與訓(xùn)練效率上均優(yōu)于現(xiàn)有的模型,在多智能體環(huán)境中具有更高的可用性,可用于解決多智能體的協(xié)同追蹤目標(biāo)問題。
技術(shù)領(lǐng)域
本發(fā)明涉及一種多智能體深度強(qiáng)化學(xué)習(xí)方法、系統(tǒng)及應(yīng)用,屬于多智能體技術(shù)領(lǐng)域。
背景技術(shù)
深度強(qiáng)化學(xué)習(xí)是一種融合了深度學(xué)習(xí)(Deep Learning,DL)與強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)的高效策略搜索算法,它利用人工神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征表示能力,使強(qiáng)化學(xué)習(xí)能夠在復(fù)雜的高維狀態(tài)空間中提取數(shù)據(jù)特征并進(jìn)行最優(yōu)行為策略的搜索。目前,DRL的研究成果可應(yīng)用于多智能體系統(tǒng),以期實現(xiàn)多智能體間的相互協(xié)作、競爭對抗等復(fù)雜的作戰(zhàn)任務(wù)。但是DRL難以適應(yīng)動態(tài)多變的環(huán)境,在研究中面臨著很多的問題:一是學(xué)習(xí)效率低:DRL的本質(zhì)是試錯學(xué)習(xí)過程,通過智能體與環(huán)境的不斷交互產(chǎn)生學(xué)習(xí)經(jīng)驗并盡數(shù)地存入到緩存區(qū)中。由于經(jīng)驗質(zhì)量的參差不齊,這將導(dǎo)致網(wǎng)絡(luò)模型難以學(xué)習(xí)到有效的樣本數(shù)據(jù);二是訓(xùn)練時間長:隨著智能體數(shù)量的增加,動作空間呈現(xiàn)指數(shù)增長的趨勢,決策輸出的維度會越來越大。并且,每個智能體的行為決策不僅需要考慮所處環(huán)境的狀態(tài),還要考慮其它智能體采取的決策對自身策略的影響,這會導(dǎo)致神經(jīng)網(wǎng)絡(luò)訓(xùn)練的速度較慢甚至?xí)霈F(xiàn)難以收斂的情況。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是克服現(xiàn)有技術(shù)的缺陷,提供一種多智能體深度強(qiáng)化學(xué)習(xí)方法、系統(tǒng)及應(yīng)用。
為解決上述技術(shù)問題,本發(fā)明提供一種多智能體深度強(qiáng)化學(xué)習(xí)方法,包括:
獲取預(yù)先構(gòu)建的智能體與外界環(huán)境交互式時進(jìn)行動作回饋的獎勵函數(shù),根據(jù)獎勵函數(shù)獲取整個獎勵空間,并依據(jù)獎勵的屬性將獎勵空間劃分為若干層緩存區(qū);
為每個智能體構(gòu)建多個克隆體,多個克隆體一一對應(yīng)多個線程,通過線程獲取對應(yīng)克隆體每次與環(huán)境副本進(jìn)行交互后的樣本經(jīng)驗;
匯總所有線程的樣本經(jīng)驗;
對于每個所述樣本經(jīng)驗,關(guān)聯(lián)它的獎勵的屬性,并根據(jù)獎勵的屬性將所述樣本經(jīng)驗放入對應(yīng)的緩存區(qū)中;
通過分層隨機(jī)抽樣的采樣方式從所有緩存區(qū)中抽取經(jīng)驗樣本,訓(xùn)練多智能體深度強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)路。
進(jìn)一步的,通過線程獲取對應(yīng)克隆體每次與環(huán)境副本進(jìn)行交互后的樣本經(jīng)驗,具體過程包括:
獲取線程中克隆體的環(huán)境副本、該線程的神經(jīng)網(wǎng)絡(luò)以及該神經(jīng)網(wǎng)絡(luò)的初始參數(shù),獲取克隆體利用初始參數(shù)的神經(jīng)網(wǎng)絡(luò)與環(huán)境副本交互后的樣本經(jīng)驗;根據(jù)樣本經(jīng)驗更新神經(jīng)網(wǎng)絡(luò)的參數(shù),重復(fù)樣本經(jīng)驗獲取過程,直到交互次數(shù)的總數(shù)到達(dá)預(yù)先設(shè)定的次數(shù)。
進(jìn)一步的,所述緩存區(qū)用于存放固定數(shù)量的樣本經(jīng)驗,當(dāng)達(dá)到預(yù)先設(shè)定的固定數(shù)量后,若有新的樣本經(jīng)驗輸入時,刪除最舊的經(jīng)驗。
進(jìn)一步的,所述樣本經(jīng)驗包括智能體當(dāng)前狀態(tài)s、行為a、智能體下一狀態(tài)s′和通過執(zhí)行行為a實現(xiàn)從當(dāng)前狀態(tài)s轉(zhuǎn)移到下一狀態(tài)s′得到的獎勵值r。
進(jìn)一步的,所述分層隨機(jī)抽樣中,
每層緩存區(qū)的抽樣的權(quán)重依據(jù)每個緩存區(qū)內(nèi)經(jīng)驗的數(shù)量占所有緩存區(qū)經(jīng)驗的總數(shù)的比重進(jìn)行確定。
進(jìn)一步的,將訓(xùn)練后的所述多智能體深度強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)路的參數(shù)覆蓋所有線程的神經(jīng)網(wǎng)絡(luò)的參數(shù)。
一種多智能體深度強(qiáng)化學(xué)習(xí)系統(tǒng),包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍陸軍工程大學(xué),未經(jīng)中國人民解放軍陸軍工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110216405.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)字學(xué)習(xí)方法及執(zhí)行此數(shù)字學(xué)習(xí)方法的攜帶式電子裝置
- 一種響應(yīng)式教學(xué)設(shè)計方法及系統(tǒng)
- 一種神經(jīng)網(wǎng)絡(luò)及該神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法
- 一種高光譜遙感影像目標(biāo)探測方法
- 一種八維學(xué)習(xí)方法
- 一種自適應(yīng)學(xué)習(xí)特征及其張量分解式分享學(xué)習(xí)方法
- 生成模型學(xué)習(xí)方法、生成模型學(xué)習(xí)裝置及程序
- 一種高精度定位系統(tǒng)及方法
- 學(xué)習(xí)方法、管理裝置和記錄介質(zhì)
- 一種基于圖像屬性特征表述的少樣本學(xué)習(xí)方法





