[發明專利]用于稀疏獎勵環境的強化學習方法、裝置、設備及介質有效
| 申請號: | 202110466716.0 | 申請日: | 2021-04-28 |
| 公開(公告)號: | CN113077052B | 公開(公告)日: | 2023-10-24 |
| 發明(設計)人: | 吳天博;王健宗 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06N3/092 | 分類號: | G06N3/092;G06F18/22 |
| 代理公司: | 北京辰權知識產權代理有限公司 11619 | 代理人: | 李小朋 |
| 地址: | 518048 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 稀疏 獎勵 環境 強化 學習方法 裝置 設備 介質 | ||
本發明公開了一種用于稀疏獎勵環境的強化學習方法、裝置、設備及介質,所述方法包括:將動作分別與多個當前環境狀態進行交互,得到多個下一時刻的環境狀態;計算所述下一時刻的環境狀態的相似度,得到相似度矩陣;根據所述相似度矩陣判斷當前環境狀態是否會受到隨機噪聲的影響;若當前環境狀態會受到隨機噪聲的影響,則通過預設的環境熟悉度模型計算內在獎勵值;根據與環境交互產生的經驗數據以及計算出來的內在獎勵值進行策略的學習。根據本公開實施例提供的強化學習方法,能夠在外部獎勵比較稀疏或者不存在的情況下快速有效地學習策略。
技術領域
本發明涉及人工智能技術領域,特別涉及一種用于稀疏獎勵環境的強化學習方法、裝置、設備及介質。
背景技術
在強化學習中與智能體相交互的所有內容都被稱為環境,環境可以給智能體提供狀態,智能體根據狀態做出決策,環境反饋給智能體獎勵。然而在現實的強化學習任務中,有很多的獎勵是稀疏的,環境不能根據智能體的每一次決策都及時反饋給獎勵值,更有甚者,在最終狀態才能得到獎勵,如圍棋、蒙特祖瑪的復仇等游戲。
稀疏獎勵問題會導致強化學習算法迭代緩慢,甚至難以收斂。目前針對于這類獎勵稀疏的任務,采取的方法有:獎勵重塑、經驗回放、探索與利用等。但是獎勵重塑重新構造獎勵值,不具有通用性,經驗回放只適合離線的算法,探索利用中有基于好奇心的方法,基于好奇心的探索方法構造了狀態的預測模型,通過預測的下一狀態和實際的下一狀態之差來衡量對環境的好奇度,把它當作內在獎勵,但是該模型會受到隨機噪聲的影響失去意義,導致下一個狀態不可預測,并且與智能體的決策無關。
發明內容
本公開實施例提供了一種用于稀疏獎勵環境的強化學習方法、裝置、設備及介質。為了對披露的實施例的一些方面有一個基本的理解,下面給出了簡單的概括。該概括部分不是泛泛評述,也不是要確定關鍵/重要組成元素或描繪這些實施例的保護范圍。其唯一目的是用簡單的形式呈現一些概念,以此作為后面的詳細說明的序言。
第一方面,本公開實施例提供了一種用于稀疏獎勵環境的強化學習方法,包括:
將動作分別與多個當前環境狀態進行交互,得到多個下一時刻的環境狀態;
計算下一時刻的環境狀態的相似度,得到相似度矩陣;
根據相似度矩陣判斷當前環境狀態是否會受到隨機噪聲的影響;
若當前環境狀態會受到隨機噪聲的影響,則通過預設的環境熟悉度模型計算內在獎勵值;
根據與環境交互產生的經驗數據以及計算出來的內在獎勵值進行策略的學習。
在一個可選地實施例中,將動作分別與多個當前環境狀態進行交互之前,還包括:
復制獲取到的當前環境狀態,得到多個當前環境狀態。
在一個可選地實施例中,根據相似度矩陣判斷當前環境狀態是否會受到隨機噪聲的影響,包括:
計算相似度矩陣的和;
若相似度矩陣的和小于預設閾值,確定當前環境狀態會受到隨機噪聲的影響。
在一個可選地實施例中,若當前環境狀態不會受到隨機噪聲的影響,還包括:
基于好奇心的方法計算內在獎勵值。
在一個可選地實施例中,基于好奇心的方法計算內在獎勵值,包括:
采用神經網絡構建環境模型;
將當前環境狀態和當前動作輸入環境模型,輸出下一個狀態的預測值;
根據下一個狀態的預測值計算預測誤差,將預測誤差作為內在獎勵值。
在一個可選地實施例中,若當前環境狀態會受到隨機噪聲的影響,則通過預設的環境熟悉度模型計算內在獎勵值,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110466716.0/2.html,轉載請聲明來源鉆瓜專利網。





