日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種編隊包圍的多智能體強化學習方法在審

專利信息
申請號: 202110346490.0 申請日: 2021-03-31
公開(公告)號: CN112966816A 公開(公告)日: 2021-06-15
發明(設計)人: 陳楊楊;徐磊鑫;俞睿;周珂 申請(專利權)人: 東南大學
主分類號: G06N3/04 分類號: G06N3/04;G06N3/063;G06N3/08
代理公司: 南京眾聯專利代理有限公司 32206 代理人: 張天哲
地址: 210096 *** 國省代碼: 江蘇;32
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 編隊 包圍 智能 強化 學習方法
【說明書】:

本發明是一種編隊包圍的多智能體強化學習方法,特別適用避碰要求和簡單閉的包圍軌線,包括如下步驟:a)確定強化學習環境中每個智能體的狀態空間、動作空間和獎勵函數;b)設計每個智能體的演員網絡和評判家網絡結構;c)由每個智能體的當前狀態通過演員網絡確定其動作,進而與環境交互得到該動作的獎勵值和智能體下一步的狀態;d)由所有智能體的動作、當前和下一步的狀態通過評判家網絡分別確定狀態和動作價值函數,進而設計損失函數;e)根據反向傳播算法重復步驟c)和d)更新演員和評判家網絡中的權值直至期望要求。此種方法簡單可靠、不依賴系統模型,能夠快速地實現復雜環境中的編隊包圍任務。

技術領域

本發明涉及一種編隊包圍的多智能體強化學習方法。

背景技術

編隊包圍,又為協作包圍,即多無人系統以一定的隊形環繞著目標的控制技術,當前被廣泛應用于協同巡邏,目標導航,資源定位和自主救援。目前,絕大多數編隊包圍設計方法都是基于傳統的系統模型,例如(陳楊楊;衛平;基于相對位置的分布式編隊球形包圍追蹤未知目標的方法,中國專利,授權,2017-05-03,ZL201710303014.4.)。與此同時,編隊包圍一旦加入避碰/避障,傳統的控制器設計就變得非常困難,究其原因是控制律容易使得無人系統陷入局部平衡點,無法繼續完成對目標的編隊包圍。

強化學習旨在讓智能體探索并學習某特定的未知環境,通過獎勵函數設置及值函數更新等方法來引導智能體針對特定狀態學會決策并做出相應的最優動作,從而獲得最大的獎勵。這種方法對比以往的控制方法來說,不需要具體且精確地模型,即只要將環境與智能體設定好,便可以通過訓練得到理想的結果。強化學習方法在編隊包圍方面取得一定的進步,但是包圍的還只限于靜態的圓包圍,例如(V.R.Konda and J.N.Tsitsiklis,“Actor-critic algorithms,”in Advances in neural information processing systems,pp.1008–1014,2000.)。實際中無論是水下無人機器人跟蹤協作采集海底生物群體,還是無人機協作包圍目標,可能是非圓包圍(如橢圓),而且要求無人系統環繞目標運動非靜止。當前尚缺少同時能實現避碰和參數化簡單的包圍軌線的編隊包圍算法。

發明內容

技術問題:本發明的目的是提供一種編隊包圍的多智能體強化學習方法,該方法簡單可靠,適應于障礙環境中的編隊包圍任務。

技術方案:本發明是一種編隊包圍多智能體強化學習方法,特別適用避碰要求和簡單閉的包圍軌線。為了訓練出期望的強化學習編隊包圍算法,先要設定多智能體強化學習環境中的動作空間、狀態空間和獎勵值函數。接下來就可以通過多智能體強化學習環境提供的智能體的狀態、動作和獎勵值訓練出強化學習編隊包圍算法。核心思想如下:首先,對智能體在強化學習環境的狀態值進行初始化。然后設計一個輸入為智能體狀態值,輸出為動作值的演員神經網絡,將初始化的狀態值輸入該神經網絡得出動作值,此時加入些許噪聲得到最終的動作值,再將該動作以及狀態值輸入到強化學習環境中得出下一時刻的狀態值及該狀態動作下的獎勵值。再設計一個以動作值,狀態值以及獎勵值為輸入,動作價值函數為輸出的評論家神經網絡,將動作值,狀態值以及獎勵值輸入該網絡得出動作價值函數。得到的動作價值函數結合獎勵值再分別構造演員神經網絡與評論家神經網絡的損失函數,利用反向傳播的計算更新神經網絡的權重,再更新的神經網絡不斷進行以上步驟的重復及訓練過程,最終可以得到一個近似收斂到最優值的結果。由此,便完成了這種編隊包圍多智能體強化學習方法的訓練學習過程。

具體的講:

本發明是一種編隊包圍的多智能體強化學習方法,不要系統的模型,包圍軌線可以是一般的簡單閉曲線并且可以實現避碰,特別適用避碰要求和簡單閉的包圍軌線,該方法包括如下步驟:

a)確定強化學習環境中每個智能體的動作空間、狀態空間和獎勵函數。

b)設計每個智能體的演員網絡和評判家網絡結構;

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202110346490.0/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖;

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 69久久夜色精品国产69–| 玖玖国产精品视频| 综合国产一区| 精品国产免费久久| 欧美日韩国产精品综合| 狠狠躁夜夜躁人人爽天天天天97| 欧美久久一区二区三区| 欧美日韩中文不卡| 99久精品视频| 欧美日韩国产一二三| 久久久综合香蕉尹人综合网| 99久久婷婷国产综合精品电影 | 国产91视频一区| 91精品国产综合久久国产大片| 国产一区二区视频在线| 日韩精品一区二区免费| 国产一区午夜| 一区二区在线视频免费观看| 91福利视频免费观看| 一区二区在线不卡| 国产精品久久久久久久四虎电影| 成年人性生活免费看| 国产精品美乳在线观看 | 日韩欧美中文字幕一区| 国产精品剧情一区二区三区| 玖玖精品国产| 国产精品久久亚洲7777 | 国产区精品区| 国产精品1区2区| 国产亚洲精品久久777777 | 久久影视一区二区| 九色国产精品入口| 午夜影院啪啪| 超碰97国产精品人人cao| 99久久精品国| 四虎国产精品永久在线国在线| 日韩精品久久久久久久酒店| 久久99久久99精品蜜柚传媒| 超碰97国产精品人人cao| 日韩av免费电影| 国产精品国精产品一二三区| 国产精品久久久久久一区二区三区| 欧美一区二区三区不卡视频| 国产人成看黄久久久久久久久| 亚洲欧美视频一区二区| 亚洲一卡二卡在线| 午夜精品999| 狠狠色综合久久婷婷色天使| 日韩av电影手机在线观看| 99久久婷婷国产综合精品草原| 亚洲欧洲日韩| 欧美一区二区三区久久久久久桃花| 久久国产精品欧美| 91国产在线看| 日本一区二区欧美| 久久国产精品首页| 夜夜躁人人爽天天天天大学生 | 狠狠躁日日躁狂躁夜夜躁av | 欧美一区二区激情三区| 精品国产乱码久久久久久免费| 日韩亚洲精品在线观看| 亚洲欧美国产一区二区三区| 久久久久国产精品免费免费搜索 | 亚洲精品久久久久中文第一暮| 久久久久久久国产精品视频| 91久久综合亚洲鲁鲁五月天| 精品国产乱码久久久久久影片| 精品国产一区二区三区国产馆杂枝| 中文字幕欧美日韩一区 | 国产福利一区在线观看| 国产一区二区二| 香港日本韩国三级少妇在线观看| 91精品一区二区在线观看 | 欧美亚洲精品一区二区三区| 亚洲第一天堂久久| 国产69精品久久久久999天美| 亚洲精品20p| 麻豆精品久久久| 欧美777精品久久久久网| 黄色国产一区二区| 狠狠色成色综合网| 激情久久一区二区|