日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種多智能體強化學習方法、電子設備及存儲介質有效

專利信息
申請號: 202011049089.2 申請日: 2020-09-29
公開(公告)號: CN111898770B 公開(公告)日: 2021-01-15
發明(設計)人: 李輝;吳昊霖 申請(專利權)人: 四川大學
主分類號: G06N20/20 分類號: G06N20/20;G06N3/04
代理公司: 北京潤澤恒知識產權代理有限公司 11319 代理人: 王婷婷
地址: 610065 四川*** 國省代碼: 四川;51
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 智能 強化 學習方法 電子設備 存儲 介質
【說明書】:

本申請提供了一種多智能體強化學習方法、電子設備及存儲介質,該方法可以包括如下步驟:(1)針對多智能體系統中的每個單位構建一個智能體;(2)每個智能體依次與環境交互,獲得獎勵函數;(3)通過值函數融合模塊將每個智能體的個體值函數融合成全局值函數;(4)針對所有智能體的全局值函數進行訓練;(5)依次針對每個智能體的個體值函數進行訓練;(6)判斷是否達到預定的訓練總次數,是則退出訓練,否則返回步驟(2)繼續訓練。該方法使用所有智能體的全局值函數,可以兼顧所有個體值函數的更新,促使智能體之間的協作,以獲取更大的集體利益,通過兩種值函數的共同更新,提高訓練效率。

技術領域

本公開實施例涉及機器學習領域,具體而言,涉及一種多智能體強化學習方法、電子設備及存儲介質。

背景技術

強化學習智能體可通過與環境進行交互的方式完成行為策略的自主學習,因此在諸如機器臂控制、棋牌類游戲以及游戲等單智能體領域的任務中獲得成功應用。但是,現實生活中的很多任務往往需要多個智能體通過協作完成,如物流機器人、無人駕駛、大型即時戰略游戲等任務。因此,多智能體強化學習在近年來愈發受到關注。

在協作型多智能體任務中,由于通信限制,每個智能體通常只能感知到自己可視范圍內的局部信息。如果每個智能體根據各自的局部信息進行學習,則智能體之間很難形成有效的協作?,F有的方法很難判斷究竟是哪一些智能體的動作帶來了獎勵函數的改變,因而有可能訓練得到一個鼓勵該智能體進行無效動作的策略。所以,該問題導致在訓練過程中無法對每個智能體的策略學習進行針對性的調整,繼而導致訓練效率的降低。

發明內容

本申請提供一種多智能體強化學習方法、電子設備及存儲介質,旨在解決上述背景技術中所提到的問題。

本申請第一方面提供了一種多智能體強化學習方法,所述方法包括:

S110、對多智能體的每個單位構建一個智能體,每個智能體包括在線智能體網絡和目標智能體網絡;

S120、對所述多智能體構建值函數融合網絡,所述值函數融合網絡包括在線融合網絡和目標融合網絡;

S130、執行動作決策階段,每個智能體的所述在線智能體網絡根據該智能體的當前時刻局部信息,計算得到該智能體的所有的當前時刻個體值函數,并基于該智能體的所有的當前時刻個體值函數輸出該智能體的當前時刻動作決策,并在環境中執行該動作決策,以得到該智能體的下一時刻局部信息;當所有智能體執行各自的當前時刻動作決策后,環境返回一個所有智能體共享的獎勵函數;

S140、模型訓練階段,將所有智能體所執行的各自當前動作決策對應的當前時刻個體值函數輸入所述在線融合網絡,得到當前時刻實際全局值函數;每個智能體依次將各自的下一時刻個體局部信息輸入到各自的目標智能體網絡,得到下一時刻各自的所有個體值函數,并從中選擇最大的下一時刻個體值函數;將所有智能體的最大的下一時刻個體值函數輸入所述目標融合網絡,得到下一時刻的最優全局值函數;

S150、利用所述當前時刻實際全局值函數和所述下一時刻最優全局值函數,對所述在線智能體網絡和所述在線融合網絡進行訓練,對所述在線智能網絡體的參數和所述在線融合網絡的網絡參數進行更新;

S160、對所述多智能體中的第i個智能體,當第i個智能體的當前時刻個體值函數的更新目標大于第i個智能體的當前時刻個體值函數時,利用第i個智能體的最大的下一時刻個體值函數和當前時刻個體值函數,對第i個智能體的所述在線智能體網絡進行訓練,對第i個智能體的所述在線智能體網絡的參數進行再次更新,其中,第i個智能體的當前時刻個體值函數的更新目標為,其中,為強化學習算法的折扣因子。

可選地,所述利用所述當前時刻實際全局值函數和所述下一時刻最優全局值函數,對所述在線智能網絡體的參數和所述在線融合網絡的參數進行更新,是按照以下基于全局值函數的第一損失函數進行的:;

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202011049089.2/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖;

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产精品一二三区视频网站| 久久久久久久久久国产精品| 国产精品亚洲欧美日韩一区在线| 91视频一区二区三区| 夜色av网| 挺进警察美妇后菊| 国产中文字幕91| 国产精欧美一区二区三区久久| 年轻bbwbbw高潮| 三级电影中文| 亚洲理论影院| 在线国产一区二区| 97香蕉久久国产超碰青草软件| 久久99视频免费| 亚洲精品乱码久久久久久蜜糖图片| 欧美髙清性xxxxhdvid| 亚洲一区精品视频| 亚洲国产另类久久久精品性| 午夜剧场a级片| 午夜私人影院在线观看| 婷婷午夜影院| 久久91精品国产91久久久| 毛片大全免费观看| 午夜激情影院| 玖玖玖国产精品| 亚州精品国产| 狠狠色丁香久久婷婷综合_中| 91超碰caoporm国产香蕉| 国产精品一二三区免费| 国语对白老女人一级hd| 国产一区二区视频播放| 午夜av男人的天堂| 欧美在线视频三区| 7799国产精品久久99| 亚洲精品性| 久久不卡精品| 国产欧美亚洲精品| 久久久精品久久日韩一区综合| 国产麻豆91欧美一区二区| 伊人av中文av狼人av| 日本一区二区三区免费播放| 国偷自产中文字幕亚洲手机在线| 亚洲美女在线一区| 亚洲无人区码一码二码三码| 免费在线观看国产精品| 国产精品久久久久久久妇女| 亚洲高清乱码午夜电影网| 亚洲久久在线| 欧美亚洲国产日韩| 国产一区二区三级| 国产乱了高清露脸对白| 欧美日韩综合一区二区| 一区二区三区欧美日韩| 97久久超碰国产精品| 四虎久久精品国产亚洲av| 自拍偷在线精品自拍偷无码专区| 午夜肉伦伦| 精品一区二区三区影院| 国产亚洲精品久久久久秋霞| 国产日韩欧美一区二区在线观看| 欧美一级不卡| 久久综合伊人77777麻豆| 欧美一区二区三区在线视频观看| 亚洲国产精品日韩av不卡在线| 国产精品免费不卡| 亚洲国产日韩综合久久精品 | 久久久久国产精品www| 日韩精品一区二区av| 久久99精品国产| 日本xxxx护士高潮hd| 国产91精品一区二区麻豆亚洲| 日本三级不卡视频| 午夜国产一区| 99国产精品| 日韩精品久久久久久久酒店| 亚洲神马久久| 亚洲制服丝袜中文字幕| 国产视频精品久久| 日本一区免费视频| 欧美激情在线一区二区三区| 亚洲乱亚洲乱妇50p| 国产欧美亚洲一区二区|