[發明專利]基于對比學習和互信息的元強化學習方法在審
| 申請號: | 202111394546.6 | 申請日: | 2021-11-23 |
| 公開(公告)號: | CN114139681A | 公開(公告)日: | 2022-03-04 |
| 發明(設計)人: | 桑桐;郝建業;鄭巖;馬億;湯宏垚 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06F17/17 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李素蘭 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 對比 學習 互信 強化 學習方法 | ||
本發明公開了一種基于對比學習和互信息的元強化學習方法,步驟1、離線地提取環境表征和策略表征;步驟2、基于互信息進行策略表征和環境表征解耦;步驟3,最后通過值函數近似來優化策略表征。與現有技術相比,本發明在盡量少的與環境交互的前提下,讓智能體能夠快速適應新的環境,有效的提高了強化學習的泛化性。
技術領域
本發明涉及深度強化學習領域,特別是涉及一種新的元強化學習方法。
背景技術
強化學習起源于心理學,通過智能體與環境交互獲得獎勵,并根據累積獎勵學得當前環境的最優策略。強化學習現在已經被廣泛應用于工業制造,機器人最優控制,游戲AI和廣告推薦領域,但是眾所周知,強化學習的泛化能力非常差。
強化學習的泛化性較差主要由兩部分原因構成,一方面是值函數的泛化性能力較差,現在的強化學習方法的目的都是學到一個最優的策略,在學習結束后,現有方法的值函數網絡通常僅能代表當前最優策略的值函數,但是在值函數網絡的學習過程中,顯然值函數網絡不僅見過最優策略,還見過一些其他的策略,但是隨著學習過程的收斂,值函數網絡最終只能近似當前最優策略的值函數。為了提高值函數的泛化性,近期的文章[學姐給的策略表征的文章列表引幾篇]開始考慮對策略進行表征,策略表征的顯式輸入使得策略的值得以在策略空間進行泛化。另一方面是強化學習訓練環境和測試環境通常是一樣的,智能體在面對新的環境時通常表現會非常差。
元強化學習的目的就是解決多任務下,強化學習泛化性較差的問題。現在比較常用的元強化學習主要分為兩類,一種是像《MAML:Model-Agnostic Meta-Learning forFast Adaptation of Deep Networks》中基于梯度下降的方式,訓練一組初始化參數,通過在初始參數的基礎上進行一或多步的梯度調整,來達到僅用少量數據就能快速適應新task的目的。另一種則是提前學習一個基于任務的編碼器,將編碼器的結果作為任務信息輸入給智能體,幫助智能體基于不同的任務信息做出決策?,F在的方法大多基于智能體的軌跡來學習表征,然而它們都忽略了這種基于軌跡學到的信息中不僅含有環境信息,而且會包含策略信息的。
現有的元強化學習算法還存在另一個問題是普遍需要在線地與環境交互來進行學習,但是對于人類來說,人類通過對一些歷史任務的經驗觀察,快速適應并通關新的任務。在這一過程中,人僅使用了歷史任務的軌跡數據,并沒有跟歷史任務環境進行交互,但是現在的算法很少關注于這種離線的元強化學習。
發明內容
針對強化學習存在的泛化性較差的問題,本發明提出一種基于對比學習和互信息的元強化學習方法,實現了新的元強化學習方法。
本發明通過以下技術方案實現:
一種基于對比學習和互信息的元強化學習方法,該方法包括以下步驟:
步驟1、離線地提取環境表征和策略表征,其中:基于離線數據集,將來自同一環境的歷史經驗歸為正例,來自不同環境的歸為負例,通過對比學習方法進行學習,實現環境表征提??;基于變分自編碼器結構對歷史軌跡進行編碼得到策略表征,然后基于策略表征通過解碼器預測軌跡中的真實動作進行學習,實現策略表征提?。涣韺W習一個編碼器來提取環境和策略的聯合表征;
步驟2、基于互信息進行策略表征和環境表征解耦,即最小化策略表征和環境表征的互信息,然后最大化策略表征、環境表征和策略環境聯合表征的互信息;學習得到環境表征ze、策略表征zπ以及環境和策略的聯合表征zb;接著引入約束,規約環境表征與策略表征之間的解耦、緊湊以及信息充分;
步驟3,通過值函數近似來優化策略表征:將策略表征和環境表征輸入給值函數網絡,在值函數網絡訓練好后,通過對值函數網絡進行梯度上升來優化策略。
與現有技術相比,本發明在盡量少的與環境交互的前提下,讓智能體能夠快速適應新的環境,有效的提高了強化學習的泛化性。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111394546.6/2.html,轉載請聲明來源鉆瓜專利網。





