[發明專利]一種基于生成對抗網絡的機器人自主學習方法在審
| 申請號: | 202111344484.8 | 申請日: | 2021-11-15 |
| 公開(公告)號: | CN116151385A | 公開(公告)日: | 2023-05-23 |
| 發明(設計)人: | 庫濤;俞寧;林樂新;劉金鑫;李進 | 申請(專利權)人: | 中國科學院沈陽自動化研究所 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06N7/01;B25J9/16 |
| 代理公司: | 沈陽科苑專利商標代理有限公司 21002 | 代理人: | 王倩 |
| 地址: | 110016 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 生成 對抗 網絡 機器人 自主 學習方法 | ||
1.一種基于生成對抗網絡的機器人自主學習方法,其特征在于,包括以下步驟:
構建馬爾科夫鏈式模型,并獲取機器人完整的動作軌跡和決策步驟,對其進行采樣,生成表示動作的真實樣本集合,將真實樣本集合存入真實樣本池;
隨機產生信號并傳入生成器中,生成器生成樣本,并將生成樣本存入虛擬樣本池;
將生成樣本傳入判別器,判別器將生成樣本與真實樣本進行對比,根據對比結果動態調整生成樣本,更新虛擬樣本池;
將更新后的虛擬樣本池與真實樣本池進行混合,構成混合樣本池,隨機抽取混合樣本池中的數據;
隨機產生策略,并執行策略;
對被執行的策略進行采樣,并將采樣結果與混合樣本池中抽取的數據進行對比,得到獎勵函數和最優策略;
根據獎勵函數訓練馬爾科夫鏈式模型,將機器人的狀態作為模型的輸入,得到其對應的動作,完成機器人的自主學習。
2.根據權利要求1所述的一種基于生成對抗網絡的機器人自主學習方法,其特征在于,所述構建馬爾科夫鏈式模型具體為:根據馬爾科夫鏈模型建立一個五元組(S,A,P,R,γ),其中集合S表示當前的狀態集,集合A表示下一時刻動作集,P為A中各種動作的概率,R為獎勵函數,γ∈(0,1)為折扣系數。
3.根據權利要求1所述的一種基于生成對抗網絡的機器人自主學習方法,其特征在于,所述判別器將生成樣本與真實樣本進行對比,具體為:將生成樣本與真實樣本進行混合構成訓練樣本,送入判別器中進行判別,輸出訓練樣本來自生成樣本的概率D(x)。
4.根據權利要求1或3所述的一種基于生成對抗網絡的機器人自主學習方法,其特征在于,所述根據對比結果動態調整生成樣本,具體為,根據概率D(x),分別計算判別器的損失函數和生成器的損失函數,當判別器的損失函數和生成器的損失函數達到納什均衡時,停止調整生成樣本。
5.根據權利要求4所述的一種基于生成對抗網絡的機器人自主學習方法,其特征在于,所述判別器的損失函數Ldiscriminator(D)為:
Ldiscriminator(D)=Ex~P[-logD(x)]+Ex~G[-log(1-D(x))]
其中,Ex~P[-logD(x)]表示將真實樣本分到生成樣本的損失,Ex~G[-log(1-D(x))]表示將生成樣本分到真實樣本的損失。
6.根據權利要求4所述的一種基于生成對抗網絡的機器人自主學習方法,其特征在于,所述生成器的損失函數Lgenerator(G)為:
Lgenerator(G)=Ex~G[-logD(x)]+Ex~G[log(1-D(x))]
其中,Ex~G[-logD(x)]表示判別器將生成樣本分類到生成樣本的損失,Ex~G[log(1-D(x))]表示判別器將生成樣本分類到真實樣本的損失。
7.根據權利要求1所述的一種基于生成對抗網絡的機器人自主學習方法,其特征在于,使用值函數評價策略,所述值函數包括表示狀態值函數Vπ(s)和表示動作值函數Qπ(s,a),其中:
其中,π(s,a)為(s,a)狀態的策略,R為獎勵函數,P(s,a,s′)為狀態s→s′的概率,動作a′為下一狀態s′的動作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院沈陽自動化研究所,未經中國科學院沈陽自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111344484.8/1.html,轉載請聲明來源鉆瓜專利網。





