[發(fā)明專利]一種面向困難探索環(huán)境的記憶保持課程學習方法在審
| 申請?zhí)枺?/td> | 202011169070.1 | 申請日: | 2020-10-28 |
| 公開(公告)號: | CN112633466A | 公開(公告)日: | 2021-04-09 |
| 發(fā)明(設計)人: | 曾政文;韋佳 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 何淑珍;江裕強 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 困難 探索 環(huán)境 記憶 保持 課程 學習方法 | ||
本發(fā)明公開了一種面向困難探索環(huán)境的記憶保持課程學習方法,用于困難探索環(huán)境下的策略求解,包括以下步驟:(1)提出雙重記憶系統(tǒng),包括短期記憶智能體和長期記憶智能體;(2)將短期記憶智能體交互產(chǎn)生的經(jīng)驗片段存儲到記憶緩存池,采用基于KL散度的損失函數(shù)作為策略蒸餾的損失函數(shù);(3)采用貝葉斯在線學習中后驗的拉普拉斯近似估計作為各個任務記憶保持的損失函數(shù),任務的信息通過在線拉普拉斯逼近順序合并到后驗中,采用了克羅內克分解近似的方法對費舍矩陣近似塊對角分解;(4)在長期記憶智能體策略網(wǎng)絡中的卷積層中加入零填充操作。所述方法在困難探索環(huán)境下進行有效的策略求解,并緩解記憶遺忘問題。
技術領域
本發(fā)明屬于機器學習領域中的課程學習方法,適用于困難探索環(huán)境下的策略求解,涉及 一種面向困難探索環(huán)境的記憶保持課程學習方法。
背景技術
近年來,人工智能領域飛速發(fā)展,其主要目標之一是實現(xiàn)讓機器與環(huán)境自主交互,根據(jù) 環(huán)境中獲得的感知信息和反饋,從而學習到最優(yōu)行為。深度強化學習作為一種使智能體與環(huán) 境進行交互感知來學習最優(yōu)行為的機器學習算法,能夠較好地處理智能體決策問題,并在一 些復雜游戲上諸如AlphaGo、德州撲克以及星際爭霸等取得了令人矚目的研究成果。
深度強化學習是深度學習和強化學習的結合,包括了深度學習的感知能力以及強化學習 的決策能力。然而,現(xiàn)實中的復雜任務往往具有稀疏獎勵、欺騙性獎勵這兩個突出的問題。 稀疏獎勵問題是現(xiàn)實任務中普遍存在的問題,智能體必須采取成百上千正確的動作才能獲得 正向獎勵。而欺騙性獎勵問題是個常見并且容易被忽略的問題,環(huán)境會給智能體是否達到全 局目標提供誤導性反饋,這導致局部最優(yōu)策略。這兩個問題組合在一起合稱作困難探索 (Hard-Exploration)問題。當應用到這些實際任務中時,深度強化學習算法會出現(xiàn)收斂困難、 樣本復雜度高和過擬合等不足。
目前,越來越多的研究者開始重視這個問題。獎勵塑性(reward shaping)已被證實是加 快強化學習任務訓練的有力方法。其核心觀點是根據(jù)先驗知識設計額外的獎勵函數(shù),同時結 合現(xiàn)有的獎勵函數(shù)可以有效減少次優(yōu)動作的數(shù)量,以此縮減訓練時間。然而,當獎勵函數(shù)設 計不合理時,強化學習智能體會陷入優(yōu)化額外的獎勵函數(shù)的循環(huán)中,而忽略了真正需要優(yōu)化 的問題。內在動機是解決稀疏獎勵的典型方法,它通過加入內在獎勵的方式訓練自監(jiān)督智能 體,使其探索并且熟悉任務環(huán)境而無需特定的目標。大體來說,其核心思想是根據(jù)對狀態(tài)感 知的熟悉程度來給予獎勵值。在一些簡單的場景中,熟悉程度根據(jù)狀態(tài)訪問的次數(shù)來定義。 而在一些復雜的場景中,智能體可以建立環(huán)境模型,然后熟悉程度可以用學習進展的預測表 示。經(jīng)驗回放機制也是一種解決獎勵稀疏的方法,其基本思路是建立了一個經(jīng)驗池用于收集 失敗的探索經(jīng)驗,然后將這些經(jīng)驗中的狀態(tài)作為到達最終目標前的子目標。之后從經(jīng)驗池中 采樣出樣本以及目標來訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經(jīng)華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011169070.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 環(huán)境服務系統(tǒng)以及環(huán)境服務事業(yè)
- 環(huán)境控制裝置、環(huán)境控制方法、環(huán)境控制程序及環(huán)境控制系統(tǒng)
- 環(huán)境檢測終端和環(huán)境檢測系統(tǒng)
- 環(huán)境調整系統(tǒng)、環(huán)境調整方法及環(huán)境調整程序
- 環(huán)境估計裝置和環(huán)境估計方法
- 用于環(huán)境艙的環(huán)境控制系統(tǒng)及環(huán)境艙
- 車輛環(huán)境的環(huán)境數(shù)據(jù)處理
- 環(huán)境取樣動力頭、環(huán)境取樣方法
- 環(huán)境艙環(huán)境控制系統(tǒng)
- 環(huán)境檢測儀(環(huán)境貓)





