[發明專利]多機器人協作對抗方法、裝置、電子設備和存儲介質有效
| 申請號: | 202111136603.0 | 申請日: | 2021-09-27 |
| 公開(公告)號: | CN113894780B | 公開(公告)日: | 2023-05-05 |
| 發明(設計)人: | 趙冬斌;唐振韜;朱圓恒 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 謝志超 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器人 協作 對抗 方法 裝置 電子設備 存儲 介質 | ||
本發明提供一種多機器人協作對抗方法、裝置、電子設備和存儲介質,其中方法包括:獲取對抗環境的當前全局狀態信息,以及每一己方機器人的當前局部觀測信息;將所述對抗環境的當前全局狀態信息和每一己方機器人的當前局部觀測信息輸入至協作對抗模型,得到所述協作對抗模型輸出的每一己方機器人的當前決策行為;基于每一己方機器人的當前決策行為,對每一己方機器人進行控制。本發明提供的方法、裝置、電子設備和存儲介質,利用了對方機器人的訓練數據,擴大了訓練樣本,提高了訓練數據的利用率,提高了協作對抗模型的魯棒性和準確性。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種多機器人協作對抗方法、裝置、電子設備和存儲介質。
背景技術
實體機器人對抗系統一直以來都是人工智能研究的重點。現有的實體機器人對抗系統的決策方法主要可分為兩大類,一類是以有限狀態機和行為決策樹為代表的傳統規則型方法,該類方法可結合博弈論模型或交互式動態影響圖方法提升模型決策性能。另一類則是基于馬爾科夫決策過程的決策型方法,將決策問題建模成馬爾科夫決策過程進行求解,并且可以結合遺傳算法或隨機組合梯度下降的方法求解馬爾科夫決策模型。
然而,隨著狀態空間的增加,求解目標優化問題的計算量會迅速增加,并且嚴重依賴于專家模型的質量,數據利用率低,模型決策效率低,模型準確性差。
發明內容
本發明提供一種多機器人協作對抗方法、裝置、電子設備和存儲介質,用于解決現有技術中的多機器人對抗方法的數據利用率低,模型決策效率低,模型準確性差的技術問題。
本發明提供一種多機器人協作對抗方法,包括:
獲取對抗環境的當前全局狀態信息,以及每一己方機器人的當前局部觀測信息;
將所述對抗環境的當前全局狀態信息和每一己方機器人的當前局部觀測信息輸入至協作對抗模型,得到所述協作對抗模型輸出的每一己方機器人的當前決策行為;
基于每一己方機器人的當前決策行為,對每一己方機器人進行控制;
其中,所述協作對抗模型是基于樣本全局狀態信息、每一己方機器人的樣本局部觀測信息、每一己方機器人的樣本決策行為、每一己方機器人的樣本決策行為對應的獎勵、每一對方機器人的樣本局部觀測信息、每一對方機器人的樣本決策行為,以及每一對方機器人的樣本決策行為對應的獎勵進行訓練后得到的。
根據本發明提供的多機器人協作對抗方法,所述每一己方機器人的當前決策行為對應的獎勵包括探索獎勵;所述探索獎勵是基于如下步驟確定的:
基于所述對抗環境的當前全局狀態信息,以及訓練特征模型和目標特征模型,確定當前全局狀態信息特征誤差;
基于任一己方機器人的當前局部觀測信息,以及訓練特征模型和目標特征模型,確定當前局部觀測信息特征誤差;
基于所述當前全局狀態信息特征誤差,以及所述任一己方機器人的歷史全局狀態信息特征誤差,確定所述任一己方機器人的全局狀態獎勵;
基于所述當前局部觀測信息特征誤差,以及所述任一己方機器人的歷史局部觀測信息特征誤差,確定所述任一己方機器人的局部觀測獎勵;
基于所述任一己方機器人的全局狀態獎勵和局部觀測獎勵,確定所述任一己方機器人的探索獎勵;
其中,所述訓練特征模型的損失函數是基于所述訓練特征模型和所述目標特征模型的均方誤差確定的。
根據本發明提供的多機器人協作對抗方法,所述將所述對抗環境的當前全局狀態信息和每一己方機器人的當前局部觀測信息輸入至協作對抗模型,得到所述協作對抗模型輸出的每一己方機器人的當前決策行為,包括:
將所述對抗環境的當前全局狀態信息輸入至所述協作對抗模型的全局態勢感知層,得到所述全局態勢感知層輸出的全局態勢特征向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111136603.0/2.html,轉載請聲明來源鉆瓜專利網。





