[發(fā)明專利]一種針對復雜條件下多智能體的訓練方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202011024781.X | 申請日: | 2020-09-25 |
| 公開(公告)號: | CN112488320B | 公開(公告)日: | 2023-05-02 |
| 發(fā)明(設(shè)計)人: | 史殿習;張耀文;張擁軍;武云龍;秦偉;徐天齊;王功舉 | 申請(專利權(quán))人: | 中國人民解放軍軍事科學院國防科技創(chuàng)新研究院;天津(濱海)人工智能軍民融合創(chuàng)新中心 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;H04K3/00 |
| 代理公司: | 北京安博達知識產(chǎn)權(quán)代理有限公司 11271 | 代理人: | 徐國文 |
| 地址: | 100071 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 針對 復雜 條件下 智能 訓練 方法 系統(tǒng) | ||
本發(fā)明提供了一種針對復雜條件下多智能體的訓練方法及系統(tǒng),包括:基于訓練目標,構(gòu)建訓練場景和智能體模型;將所述訓練場景按照場景復雜程度,由簡單到復雜依次分解為多個課程任務(wù);利用所述智能體模型,按場景復雜程度,依次選擇課程任務(wù)進行訓練得到各智能體的策略;其中在訓練過程中將前一課程任務(wù)的訓練結(jié)果作為下一課程任務(wù)的初始條件。本發(fā)明將訓練場景按照場景復雜程度,由簡單到復雜依次分解為多個課程任務(wù),解決了多智能體強化學習中的非平穩(wěn)問題,提升了訓練效果,同時縮短了訓練時間。
技術(shù)領(lǐng)域
本發(fā)明涉及智能體控制技術(shù)領(lǐng)域,具體涉及一種針對復雜條件下多智能體的訓練方法及系統(tǒng)。
背景技術(shù)
在多智能體系統(tǒng)研究中,一種直觀的研究方式是為智能體預定義行為規(guī)則。在任務(wù)執(zhí)行中,各智能體按照預設(shè)規(guī)則實現(xiàn)各種行為。但這種方式需定義大量的行為規(guī)則來應(yīng)對環(huán)境中各種可能出現(xiàn)的情況。而在復雜環(huán)境中,很難對環(huán)境中的各種情況進行枚舉,并且其它智能體的行為會使環(huán)境持續(xù)變化。因此,在復雜環(huán)境中,多智能體需通過與環(huán)境的持續(xù)交互學習新的行為,進而保證任務(wù)的執(zhí)行性能。強化學習(RL)作為一種學習模式,不依賴先驗知識和數(shù)據(jù),是一種處理復雜問題的有效方法。強化學習通過使智能體與環(huán)境不斷交互,進而獲得獎勵或懲罰信號,并用其指導行動策略的學習。該方法可使智能體在復雜動態(tài)環(huán)境中學習到更魯棒性的行為策略。而通過與深度學習的結(jié)合,可在更高維狀態(tài)空間中找到學習策略的更緊湊的表示形式。在深度強化學習(DRL)中,可使用深度神經(jīng)網(wǎng)絡(luò)近似表示智能體的最優(yōu)行動策略或價值函數(shù),從而實現(xiàn)表示能力的泛化。因此,深度強化學習可作為求解復雜環(huán)境下智能體決策問題的有效方法。
多智能體強化學習(MARL)是深度強化學習從單智能體到多智能體的擴展。各智能體將其它智能體看作環(huán)境的一部分,通過觀察并與環(huán)境交互,從而獲得獎懲信號,進而引導行動策略的學習。因此,在智能體觀察環(huán)境時,其計算復雜度將隨智能體個數(shù)的增加呈指數(shù)增長,計算時間也隨智能體的增加而增加。在多智能體系統(tǒng)中,每個智能體的目標是學習對其他智能體行為的最佳響應(yīng)。在復雜和高動態(tài)的系統(tǒng)中,如果其他智能體的策略也在不斷優(yōu)化調(diào)整,則當前智能體的學習目標會改變,即整個系統(tǒng)的學習策略將出現(xiàn)不穩(wěn)定的性質(zhì),學習效果也會遠離預期。
課程學習(CL)是機器學習的一種,旨在提高遷移學習的效果。在2016年美國多智能體自主系統(tǒng)協(xié)會(AAMAS)上發(fā)表的論文《Source?task?creation?for?curriculumlearning》,CL首次與RL結(jié)合。CL的主要是應(yīng)用于處理復雜任務(wù),方法是是通過生成一系列任務(wù)進行分別訓練,最終提升目標任務(wù)的最終漸近性能或減少計算時間。然而,大多數(shù)現(xiàn)有的研究集中于單智能體的研究,而其他在多智能體系統(tǒng)中考慮CL的方法使用結(jié)合相對簡單。現(xiàn)有的單一的場景研究,其智能體的數(shù)量是固定的,且具有稀疏的獎勵函數(shù)設(shè)置。
綜上,在場景較為復雜的多智能體深度強化學習的訓練過程中,尤其是在訓練多智能體的合作/競爭場景中,隨著智能體的增多,現(xiàn)有的訓練方式存在訓練不穩(wěn)定、訓練效果差,以及訓練周期長的問題。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中所存在的上述不足,本發(fā)明提供了一種針對復雜條件下多智能體的訓練方法,包括:
基于訓練目標,構(gòu)建訓練場景和智能體模型;
將所述訓練場景按照場景復雜程度,由簡單到復雜依次分解為多個課程任務(wù);
利用所述智能體模型,按場景復雜程度,依次選擇課程任務(wù)進行訓練得到各智能體的策略;
其中在訓練過程中將前一課程任務(wù)的訓練結(jié)果作為下一課程任務(wù)的初始條件。
優(yōu)選的,所述智能體模型的構(gòu)建包括:
基于不同的任務(wù)和回報方式分別構(gòu)建多個合作智能體、多個目標智能體和多個干擾智能體;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍軍事科學院國防科技創(chuàng)新研究院;天津(濱海)人工智能軍民融合創(chuàng)新中心,未經(jīng)中國人民解放軍軍事科學院國防科技創(chuàng)新研究院;天津(濱海)人工智能軍民融合創(chuàng)新中心許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011024781.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:漏光檢測機
- 下一篇:一種用于層流受控環(huán)境的工作臺





