[發(fā)明專利]一種基于深度確定性策略梯度的異構多智能體協(xié)同決策方法在審
| 申請?zhí)枺?/td> | 201810397866.9 | 申請日: | 2018-04-28 |
| 公開(公告)號: | CN108600379A | 公開(公告)日: | 2018-09-28 |
| 發(fā)明(設計)人: | 李瑞英;王瑞;胡曉惠;張慧 | 申請(專利權)人: | 中國科學院軟件研究所 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;H04L12/24 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 楊學明;顧煒 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 異構 多智能體 智能體 確定性 運動環(huán)境 協(xié)同 構建 智能 決策 策略優(yōu)化 動作空間 決策領域 決策行動 實際需求 特征屬性 梯度算法 系統(tǒng)領域 訓練學習 運動狀態(tài) 智能感知 狀態(tài)空間 狀態(tài)序列 評判 反饋 評估 | ||
本發(fā)明涉及一種基于深度確定性策略梯度的異構多智能體協(xié)同決策方法,屬于異構智能無人系統(tǒng)的協(xié)同決策領域,包括以下步驟:首先,定義異構多智能體的特征屬性和獎懲規(guī)則,明確智能體的狀態(tài)空間和動作空間,構建多智能體進行協(xié)同決策的運動環(huán)境;然后,基于深度確定性的策略梯度算法,建立進行決策行動的actor模塊和進行評判反饋的critic模塊,并訓練學習模型的參數(shù);利用訓練好的模型,得到智能體的狀態(tài)序列;依據(jù)環(huán)境中設置的獎懲規(guī)則,對智能體的運動狀態(tài)序列進行態(tài)勢的評估。本發(fā)明可以根據(jù)實際需求構建合理的運動環(huán)境,通過系統(tǒng)中多智能體間的彼此協(xié)同,達到智能感知、策略優(yōu)化的目的,對我國無人系統(tǒng)領域的發(fā)展具有積極的作用。
技術領域
本發(fā)明屬于異構智能無人系統(tǒng)的協(xié)同決策領域,具體涉及一種基于深度確定性策略梯度的異構多智能體協(xié)同決策方法。
背景技術
近幾年來,信息技術和智能感知技術的飛速發(fā)展,為復雜環(huán)境的感知、精準的智能決策和多機任務的協(xié)同等高級智能行為奠定了重要的基礎。智能無人系統(tǒng)的研究,如今已經(jīng)成為了人工智能發(fā)展的標志性成果,其任務的復雜性和動態(tài)環(huán)境的不確定性決定了系統(tǒng)必須具備很強的自適應能力和自主能力。
傳統(tǒng)的智能蟻群(Swarm Intelligenc)[1]起始于1959年,法國生物學家PierrePaul Grasse研究發(fā)現(xiàn):昆蟲之間存在高度結構化的組織,能夠完成遠遠超出個體能力的復雜任務,蟻群的工作模式就是這種智能集群的經(jīng)典代表,它們通過單體之間簡單的相互溝通協(xié)調(diào),表現(xiàn)出大規(guī)模集群的智能行為。通過對昆蟲間智能集群行為的探索,涌現(xiàn)出了諸多智能集群算法,如蟻群算法(Ant Colony System,ACS)[2]和粒子群優(yōu)化算法(Particle Swarm Optimization,PSO)等。傳統(tǒng)的智能無人集群系統(tǒng)就是基于生物集群行為,通過彼此間的感知交互和信息傳遞,從而在險惡的環(huán)境下低成本地協(xié)同工作,完成多樣性的復雜任務。現(xiàn)階段無人集群任務的分配一般是按照保證最大益損比(分配收益最大、損耗最小)和任務均衡的原則進行的,體現(xiàn)集群的協(xié)同作戰(zhàn)優(yōu)勢,然而這些集群算法并不是十分成熟,不適用于大規(guī)模復雜任務的自主規(guī)劃。
基于深度強化學習技術的態(tài)勢感知學習方法,可以使智能無人系統(tǒng)具備自學習能力,提高對復雜多變環(huán)境的適應能力。強化學習的歷史由來已久,早期的強化學習和馬爾科夫決策過程(MDP)模型有很大的關系,可以簡化為一個四元組,即狀態(tài)s(state)、動作a(action)、獎勵r(reward)和轉移概率P(probability),學習的目標是尋找一個策略:在某一狀態(tài)時,采取不同的動作會有不同的概率,同時會得到不同的回報。其優(yōu)點是表達能力較強,具有很好的決策能力,缺點是動作和狀態(tài)都是離散的。2006年,Hinton等人提出利用受限玻爾茲曼機RBM(Restricted Boltzmann Machine)來編碼深層神經(jīng)網(wǎng)絡[3],將神經(jīng)網(wǎng)絡重新拉回了大家的視線;2012年,深度卷積網(wǎng)絡[4]在ImageNet競賽[5]的真正爆發(fā),迎來了深度學習的蓬勃發(fā)展;2016年,將深度學習的感知能力和強化學習的決策能力相結合衍生出來的深度強化學習算法帶來了AlphaGo[6]的巨大成功,為人工智能的發(fā)展奠定了新的里程碑,利用深度強化學習技術進行機器人的智能控制[7-9]成為了一個新的研究方向。
以下為所述的參考文獻:
[1]Guy Theraulaz,Eric Bonabeau:A Brief History of Stimergy.ArtificialLife 5(2):97-116(1999)
[2]Marco Dorigo,Vittorio Maniezzo,Alberto Colorni:Ant system:optimization by a colony of cooperating agents.IEEE Transactions on Systems,Man,and Cybernetics,Part B 26(1):29-41(1996)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院軟件研究所,未經(jīng)中國科學院軟件研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810397866.9/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





