[發明專利]用于稀疏獎勵環境的強化學習方法、裝置、設備及介質有效
| 申請號: | 202110466716.0 | 申請日: | 2021-04-28 |
| 公開(公告)號: | CN113077052B | 公開(公告)日: | 2023-10-24 |
| 發明(設計)人: | 吳天博;王健宗 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06N3/092 | 分類號: | G06N3/092;G06F18/22 |
| 代理公司: | 北京辰權知識產權代理有限公司 11619 | 代理人: | 李小朋 |
| 地址: | 518048 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 稀疏 獎勵 環境 強化 學習方法 裝置 設備 介質 | ||
1.一種用于稀疏獎勵環境的強化學習方法,其特征在于,包括:
將動作分別與多個當前環境狀態進行交互,得到多個下一時刻的環境狀態;
計算所述下一時刻的環境狀態的相似度,得到相似度矩陣;
根據所述相似度矩陣判斷當前環境狀態是否會受到隨機噪聲的影響;
若當前環境狀態會受到隨機噪聲的影響,則通過預設的環境熟悉度模型計算內在獎勵值;
根據與環境交互產生的經驗數據以及計算出來的內在獎勵值進行策略的學習。
2.根據權利要求1所述的方法,其特征在于,將動作分別與多個當前環境狀態進行交互之前,還包括:
復制獲取到的當前環境狀態,得到多個當前環境狀態。
3.根據權利要求1所述的方法,其特征在于,根據所述相似度矩陣判斷當前環境狀態是否會受到隨機噪聲的影響,包括:
計算所述相似度矩陣的和;
若所述相似度矩陣的和小于預設閾值,確定當前環境狀態會受到隨機噪聲的影響。
4.根據權利要求3所述的方法,其特征在于,若當前環境狀態不會受到隨機噪聲的影響,還包括:
基于好奇心的方法計算內在獎勵值。
5.根據權利要求4所述的方法,其特征在于,基于好奇心的方法計算內在獎勵值,包括:
采用神經網絡構建環境模型;
將當前環境狀態和當前動作輸入所述環境模型,輸出下一個狀態的預測值;
根據下一個狀態的預測值計算預測誤差,將所述預測誤差作為內在獎勵值。
6.根據權利要求1所述的方法,其特征在于,若當前環境狀態會受到隨機噪聲的影響,則通過預設的環境熟悉度模型計算內在獎勵值,包括:
通過隨機采樣的方式從歷史環境狀態中隨機獲取預設數量個歷史環境狀態;
根據所述隨機獲取的歷史環境狀態與當前環境狀態的相似度構建隨機相似度矩陣;
根據所述隨機相似度矩陣構建所述環境熟悉度模型。
7.根據權利要求6所述的方法,其特征在于,通過所述環境熟悉度模型計算內在獎勵值,包括:
其中,f(s)表示內在獎勵值,∑sim表示所述隨機相似度矩陣的和。
8.一種用于稀疏獎勵環境的強化學習裝置,其特征在于,包括:
交互模塊,用于將動作分別與多個當前環境狀態進行交互,得到多個下一時刻的環境狀態;
第一計算模塊,用于計算所述下一時刻的環境狀態的相似度,得到相似度矩陣;
判斷模塊,用于根據所述相似度矩陣判斷當前環境狀態是否會受到隨機噪聲的影響;
第二計算模塊,用于當前環境狀態會受到隨機噪聲的影響時,通過預設的環境熟悉度模型計算內在獎勵值;
策略學習模塊,用于根據與環境交互產生的經驗數據以及計算出來的內在獎勵值進行策略的學習。
9.一種計算機設備,包括存儲器和處理器,所述存儲器中存儲有計算機可讀指令,所述計算機可讀指令被所述處理器執行時,使得所述處理器執行如權利要求1至7中任一項權利要求所述的用于稀疏獎勵環境的強化學習方法的步驟。
10.一種存儲有計算機可讀指令的存儲介質,所述計算機可讀指令被一個或多個處理器執行時,使得一個或多個處理器執行如權利要求1至7中任一項權利要求所述的用于稀疏獎勵環境的強化學習方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110466716.0/1.html,轉載請聲明來源鉆瓜專利網。





