[發明專利]一種基于強化學習的敵-友深度確定性策略方法及系統在審
| 申請號: | 202010977621.0 | 申請日: | 2020-09-17 |
| 公開(公告)號: | CN112215364A | 公開(公告)日: | 2021-01-12 |
| 發明(設計)人: | 薛超;姜浩;金松昌;康穎;史殿習;郝峰;王弢 | 申請(專利權)人: | 天津(濱海)人工智能軍民融合創新中心 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06N3/04 |
| 代理公司: | 北京安博達知識產權代理有限公司 11271 | 代理人: | 徐國文 |
| 地址: | 300450 天津市*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 深度 確定性 策略 方法 系統 | ||
一種基于強化學習的敵?友深度確定性策略方法,包括:構建強化學習環境,所述學習環境包括:多種場景、基于每種場景設計的多個智能體以及多個智能體之間的關系;基于每種場景,獲取各智能體動作;基于所有智能體動作以及智能體之間的關系,以使敵方最壞、友方最好為目標,對估計評論家網絡和估計演員網絡進行訓練,確定各智能體動作策略;其中,所述智能體之間的關系包括:處于友方的合作者和處于對方的對抗者;本發明提供的方法能夠有效的面對多智能體強化學習中的非穩定性問題,即便是面對快速變化的對手,算法也能夠有較好的性能和泛化性。
技術領域
本發明涉及智能體強化學習領域,具體涉及一種基于強化學習的敵-友深度確定性策略方法及系統。
背景技術
近年來,深度強化學習取得了迅速的發展。其在機器人運動控制、視頻預測等單智能體環境下,以及Atari游戲、Go等復雜游戲環境下,取得了顯著的成功。然而,現實生活中的場景往往涉及多智能體之間復雜的合作、對抗或交互,如車輛自動駕駛、資源分配、群體機器人、人機交互等。因此,越來越多的研究人員正從單智能體領域轉向多智能體領域。目前在多智能體場景下已經取得了一定的研究成果,如通信和自然語言處理、多智能體游戲、交通控制、社交困境等。
馬爾科夫決策過程(Markov Decision Process,MDP)是強化學習問題在數學上的理想化形式,也是一種通過交互式學習來實現目標的理論框架。通常將進行學習以及實施決策的機器人稱為智能體,智能體之外所有與之相互作用的事物稱為環境。智能體選擇動作,環境對這些動作做出相應的回饋,并且向智能體呈現一個新的狀態。同時環境也會產生一個收益(也就是獎勵),這個獎勵就是智能體在選擇動作過程中想要最大化的目標。該系列決策過程可以建模成MDP。
非穩定性是多智能體強化學習面臨的一個嚴峻問題。因為在多智能體環境設定中,智能體只能感知到部分環境,在這種部分可觀察的狀態下,智能體無法獲取環境的整體信息。在訓練的過程中,任一智能體將其他智能體看做是環境的一部分,其他智能體都在與環境不斷的交互,且每個其他智能體的策略都會隨時變化,所以對每個智能體而言,整個環境都是在動態變化的。在此情況下,每個智能體感知到的環境是獨立的,獲得的獎勵回報也會不同,整個環境也變的很不穩定。經典的梯度下降算法在這種部分可觀察的多智能體場景下通常表現出較大的方差。為了解決不穩定問題,研究人員做了大量的工作。美國人工智能協會(AAAI2018)上發表的論文《Counterfactual Multi-Agent Policy Gradients》提出了一種基于行為-批評學習框架的集中式批評來減小政策梯度方差的反事實多智能體策略梯度算法(COMA)。神經信息處理系統大會(NIPS 2017)上發表的文章《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》提出了一種多智能體深度確定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)。
MADDPG算法是將演員-評論家(Actor-Critic,AC)算法進行了一系列改進,使其能夠適用于傳統強化學習算法無法處理的復雜多智能體場景。算法通過獲取全局信息條件下的每個智能體的Q函數以及其他智能體的動作和狀態,使用集中式訓練得到演員和評論家。在執行的時候演員只需要自己局部觀測的信息就能運行。該算法能夠有效的緩解非平穩性問題,且在合作場景和對抗場景中均有較好的表現。
友方或敵方Q學習算法(Friend-or-Foe Q-learning,FFQ)是一種經典的強化學習算法,它是從Minimax-Q算法拓展而來。為了能夠處理一般和博弈,FFQ算法對一個智能體i,將其他所有智能體分為兩組,一組為i的朋友幫助i一起最大化其獎勵回報,另一組為i的敵人對抗i并降低i的獎勵回報,因此對每個智能體而言都有兩組。這樣一個n智能體的一般和博弈就轉化成了n個兩智能體的零和博弈。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津(濱海)人工智能軍民融合創新中心,未經天津(濱海)人工智能軍民融合創新中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010977621.0/2.html,轉載請聲明來源鉆瓜專利網。





