日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于強化學習的敵-友深度確定性策略方法及系統在審

專利信息
申請號: 202010977621.0 申請日: 2020-09-17
公開(公告)號: CN112215364A 公開(公告)日: 2021-01-12
發明(設計)人: 薛超;姜浩;金松昌;康穎;史殿習;郝峰;王弢 申請(專利權)人: 天津(濱海)人工智能軍民融合創新中心
主分類號: G06N20/00 分類號: G06N20/00;G06N3/04
代理公司: 北京安博達知識產權代理有限公司 11271 代理人: 徐國文
地址: 300450 天津市*** 國省代碼: 天津;12
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 強化 學習 深度 確定性 策略 方法 系統
【說明書】:

一種基于強化學習的敵?友深度確定性策略方法,包括:構建強化學習環境,所述學習環境包括:多種場景、基于每種場景設計的多個智能體以及多個智能體之間的關系;基于每種場景,獲取各智能體動作;基于所有智能體動作以及智能體之間的關系,以使敵方最壞、友方最好為目標,對估計評論家網絡和估計演員網絡進行訓練,確定各智能體動作策略;其中,所述智能體之間的關系包括:處于友方的合作者和處于對方的對抗者;本發明提供的方法能夠有效的面對多智能體強化學習中的非穩定性問題,即便是面對快速變化的對手,算法也能夠有較好的性能和泛化性。

技術領域

本發明涉及智能體強化學習領域,具體涉及一種基于強化學習的敵-友深度確定性策略方法及系統。

背景技術

近年來,深度強化學習取得了迅速的發展。其在機器人運動控制、視頻預測等單智能體環境下,以及Atari游戲、Go等復雜游戲環境下,取得了顯著的成功。然而,現實生活中的場景往往涉及多智能體之間復雜的合作、對抗或交互,如車輛自動駕駛、資源分配、群體機器人、人機交互等。因此,越來越多的研究人員正從單智能體領域轉向多智能體領域。目前在多智能體場景下已經取得了一定的研究成果,如通信和自然語言處理、多智能體游戲、交通控制、社交困境等。

馬爾科夫決策過程(Markov Decision Process,MDP)是強化學習問題在數學上的理想化形式,也是一種通過交互式學習來實現目標的理論框架。通常將進行學習以及實施決策的機器人稱為智能體,智能體之外所有與之相互作用的事物稱為環境。智能體選擇動作,環境對這些動作做出相應的回饋,并且向智能體呈現一個新的狀態。同時環境也會產生一個收益(也就是獎勵),這個獎勵就是智能體在選擇動作過程中想要最大化的目標。該系列決策過程可以建模成MDP。

非穩定性是多智能體強化學習面臨的一個嚴峻問題。因為在多智能體環境設定中,智能體只能感知到部分環境,在這種部分可觀察的狀態下,智能體無法獲取環境的整體信息。在訓練的過程中,任一智能體將其他智能體看做是環境的一部分,其他智能體都在與環境不斷的交互,且每個其他智能體的策略都會隨時變化,所以對每個智能體而言,整個環境都是在動態變化的。在此情況下,每個智能體感知到的環境是獨立的,獲得的獎勵回報也會不同,整個環境也變的很不穩定。經典的梯度下降算法在這種部分可觀察的多智能體場景下通常表現出較大的方差。為了解決不穩定問題,研究人員做了大量的工作。美國人工智能協會(AAAI2018)上發表的論文《Counterfactual Multi-Agent Policy Gradients》提出了一種基于行為-批評學習框架的集中式批評來減小政策梯度方差的反事實多智能體策略梯度算法(COMA)。神經信息處理系統大會(NIPS 2017)上發表的文章《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》提出了一種多智能體深度確定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)。

MADDPG算法是將演員-評論家(Actor-Critic,AC)算法進行了一系列改進,使其能夠適用于傳統強化學習算法無法處理的復雜多智能體場景。算法通過獲取全局信息條件下的每個智能體的Q函數以及其他智能體的動作和狀態,使用集中式訓練得到演員和評論家。在執行的時候演員只需要自己局部觀測的信息就能運行。該算法能夠有效的緩解非平穩性問題,且在合作場景和對抗場景中均有較好的表現。

友方或敵方Q學習算法(Friend-or-Foe Q-learning,FFQ)是一種經典的強化學習算法,它是從Minimax-Q算法拓展而來。為了能夠處理一般和博弈,FFQ算法對一個智能體i,將其他所有智能體分為兩組,一組為i的朋友幫助i一起最大化其獎勵回報,另一組為i的敵人對抗i并降低i的獎勵回報,因此對每個智能體而言都有兩組。這樣一個n智能體的一般和博弈就轉化成了n個兩智能體的零和博弈。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津(濱海)人工智能軍民融合創新中心,未經天津(濱海)人工智能軍民融合創新中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202010977621.0/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 狠狠色噜噜狠狠狠狠综合久| 国产99久久久久久免费看| 大桥未久黑人强制中出| 日韩电影在线一区二区三区| 国产精品1区2区| 欧美系列一区| 精品视频久| 欧美一区二三区人人喊爽| 国产乱人伦偷精品视频免下载| 精品一区欧美| 国产一二三区免费| 99国产精品欧美久久久久的广告| 国产在线不卡一| 精品一区二区超碰久久久| 欧美精品免费一区二区| 国产88久久久国产精品免费二区| 国产在线视频二区| 欧美乱妇高清无乱码免费| 国产日产精品一区二区三区| 国产不卡网站| 欧美激情综合在线| 亚洲精品久久久久www| 国产一区日韩欧美| 91精品国产影片一区二区三区| 国产亚洲另类久久久精品| 一本久久精品一区二区| 欧洲国产一区| 国产精品videossex国产高清| 精品久久9999| 老太脱裤子让老头玩xxxxx| 国产91麻豆视频| 日韩av在线免费电影| 午夜私人影院在线观看| 日韩精品一区在线视频| 欧美日韩一区免费| 免费午夜片| 国产一区二区免费在线| 88888888国产一区二区| 国产精品久久久久久久久久久不卡| 国产乱淫精品一区二区三区毛片| 欧美日韩精品影院| 午夜片在线| 日韩久久电影| 精品国产一区二区三区四区四| 国产亚洲精品精品国产亚洲综合| 在线观看黄色91| 国产一区二区国产| 亚洲久久在线| 国产精品不卡一区二区三区| 精品三级一区二区| 国产高清一区在线观看| 国产精品日韩高清伦字幕搜索| 国产精品高潮呻吟久| 黄色av中文字幕| 国产精品视频tv| 亚洲欧美另类久久久精品2019 | 国产精品国精产品一二三区| 国产偷亚洲偷欧美偷精品 | 岛国精品一区二区| 国产99久久九九精品免费| 夜夜精品视频一区二区| 国产亚洲精品久久19p| 狠狠色噜噜狠狠狠狠米奇777| 精品videossexfreeohdbbw| 男女视频一区二区三区| 久久99中文字幕| 欧美一区二区三区艳史| 欧美日韩综合一区| 国产69精品久久久久999天美| 日韩精品一区二区久久| 国产一区二区二| 亚洲欧洲日韩在线| 久久午夜鲁丝片午夜精品| 欧美色综合天天久久综合精品| 色噜噜狠狠色综合久| 国产69精品久久久久999小说| 国产www亚洲а∨天堂| 性国产videofree极品| 国产乱对白刺激视频在线观看 | 国产一区二区三区精品在线| 99国产精品99久久久久久粉嫩| 免费高潮又黄又色又爽视频| 国产在线干| 欧美日韩三区二区| 日韩一级视频在线| 欧美在线免费观看一区| 久草精品一区| 中文字幕a一二三在线| 亚洲乱在线| 欧美高清性xxxxhd| 亚洲神马久久| 日韩欧美一区二区在线视频| 日韩一级在线视频| 91麻豆文化传媒在线观看| 日韩久久精品一区二区| 91精品国产91热久久久做人人| xx性欧美hd| 性夜影院在线观看| 26uuu色噜噜精品一区二区| 99精品国产免费久久| 欧美性xxxxx极品少妇| 国产精品色在线网站| 麻豆视频免费播放| 精品一区二区三区自拍图片区| 性old老妇做受| 久久夜色精品久久噜噜亚| 综合在线一区| 亚洲欧美一区二| 国产欧美久久一区二区三区| 香港三日本三级三级三级| 午夜特片网| 欧美日韩国产午夜| 亚洲精品国产一区二区三区| 日本精品一二三区| freexxxxxxx| 狠狠色噜噜狠狠狠狠777| 91麻豆精品国产自产欧美一级在线观看| 国产视频精品一区二区三区| 99re热精品视频国产免费| 午夜理伦影院| 91一区二区三区在线| 李采潭伦理bd播放| 91麻豆精品国产91久久久久| 国产精品一区在线观看你懂的| 狠狠色丁香久久婷婷综| 亚洲高清久久久| 久久99国产精品久久99果冻传媒新版本| 日韩中文字幕亚洲精品欧美| 欧美精品国产精品| 99久久精品国产国产毛片小说| 国产69精品久久久久app下载| 亚洲乱强伦| 日韩午夜电影院| 日本一区免费视频| 久久91久久久久麻豆精品| 国产欧美亚洲一区二区| 91精品丝袜国产高跟在线| 欧美一区二区精品久久911| 高清欧美xxxx| 26uuu色噜噜精品一区二区 | 欧美综合国产精品久久丁香| 午夜黄色网址| 久久五月精品| 精品无码久久久久国产| 久99久精品| 国产一区二区大片| 国产日韩欧美在线影视| 日韩欧美国产第一页| 国产日韩一区二区三区| 日本高清h色视频在线观看| 亚洲国产欧美一区| 欧美精品国产一区| 99精品国产一区二区三区不卡| 91麻豆精品国产91久久久更新资源速度超快 | 国产精品九九九九九九| 精品久久久久久久免费看女人毛片| 亚洲精品人| 国产精品一区二区免费视频| 亚洲网站久久| 国产一区www| 免费超级乱淫视频播放| 正在播放国产一区二区| 国产麻豆一区二区三区在线观看| 国产日韩欧美精品| 色婷婷久久一区二区三区麻豆| 91热国产| 欧美精品一区二区三区久久久竹菊| 日韩国产精品一区二区| 国产大片黄在线观看私人影院 | 国产欧美日韩综合精品一| 国产精品自产拍在线观看桃花| 国产97免费视频| 日韩中文字幕一区二区在线视频| 欧美午夜一区二区三区精美视频| 国产99久久九九精品| 国产一区在线视频观看| 久久久精品欧美一区二区| 日韩精品免费一区二区中文字幕| 狠狠躁狠狠躁视频专区| 一区精品二区国产| 日韩三区三区一区区欧69国产| 天摸夜夜添久久精品亚洲人成| 99国产精品99久久久久| 精品国产区| 97精品国产97久久久久久粉红| 精品久久久久久久久亚洲| 日韩一级片在线免费观看| 日本一二三区视频| 99视频一区| 538国产精品一区二区| 国产精品国产三级国产专区55| 6080日韩午夜伦伦午夜伦| 亚洲国产精品91| 黄色香港三级三级三级| 一区二区三区欧美视频| 国产乱码一区二区| 国产免费第一区| 色一情一乱一乱一区99av白浆| 午夜社区在线观看| 欧美在线播放一区| 色综合久久久| 欧美一区二区三区激情在线视频| 欧美激情精品久久久久久免费| 4399午夜理伦免费播放大全| 日韩精品一区二区免费| 国产精品高潮呻| 亚洲少妇一区二区三区| sb少妇高潮二区久久久久| 国产免费第一区| 欧美日韩精品不卡一区二区三区| 午夜看片网站| 国产精品久久久久久久妇女| 欧美日韩一级二级| 欧美日本一二三区| 国产在线拍偷自揄拍视频| 国产日韩欧美精品一区二区| 国产一区二区三区大片| 亚洲欧美日韩另类精品一区二区三区 | 88国产精品视频一区二区三区| 中文字幕一区一区三区| 狠狠色丁香久久综合频道| 午夜情所理论片| 国产偷自视频区视频一区二区| 国产精品一区二区不卡| 久久狠狠高潮亚洲精品| 国产农村妇女精品一二区| 久久综合国产伦精品免费| 精品一区欧美| 亚洲欧美国产日韩色伦| 日韩欧美高清一区二区| 少妇高潮大叫喷水| 国产91九色视频| 亚洲四区在线| 国产精品久久久久久久久久软件| 国产欧美日韩综合精品一| 亚洲欧美一区二区三区1000 | 欧美乱妇高清无乱码| 激情欧美日韩| 欧美久久久一区二区三区| 国产欧美精品一区二区三区小说 | 欧美国产一二三区| 久久99精品国产麻豆宅宅| 岛国精品一区二区| 夜色av网| 日韩精品一区在线观看| 欧美日本一二三区|