日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]基于對比學習和互信息的元強化學習方法在審

專利信息
申請號: 202111394546.6 申請日: 2021-11-23
公開(公告)號: CN114139681A 公開(公告)日: 2022-03-04
發明(設計)人: 桑桐;郝建業;鄭巖;馬億;湯宏垚 申請(專利權)人: 天津大學
主分類號: G06N3/04 分類號: G06N3/04;G06N3/08;G06F17/17
代理公司: 天津市北洋有限責任專利代理事務所 12201 代理人: 李素蘭
地址: 300072*** 國省代碼: 天津;12
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 基于 對比 學習 互信 強化 學習方法
【說明書】:

發明公開了一種基于對比學習和互信息的元強化學習方法,步驟1、離線地提取環境表征和策略表征;步驟2、基于互信息進行策略表征和環境表征解耦;步驟3,最后通過值函數近似來優化策略表征。與現有技術相比,本發明在盡量少的與環境交互的前提下,讓智能體能夠快速適應新的環境,有效的提高了強化學習的泛化性。

技術領域

本發明涉及深度強化學習領域,特別是涉及一種新的元強化學習方法。

背景技術

強化學習起源于心理學,通過智能體與環境交互獲得獎勵,并根據累積獎勵學得當前環境的最優策略。強化學習現在已經被廣泛應用于工業制造,機器人最優控制,游戲AI和廣告推薦領域,但是眾所周知,強化學習的泛化能力非常差。

強化學習的泛化性較差主要由兩部分原因構成,一方面是值函數的泛化性能力較差,現在的強化學習方法的目的都是學到一個最優的策略,在學習結束后,現有方法的值函數網絡通常僅能代表當前最優策略的值函數,但是在值函數網絡的學習過程中,顯然值函數網絡不僅見過最優策略,還見過一些其他的策略,但是隨著學習過程的收斂,值函數網絡最終只能近似當前最優策略的值函數。為了提高值函數的泛化性,近期的文章[學姐給的策略表征的文章列表引幾篇]開始考慮對策略進行表征,策略表征的顯式輸入使得策略的值得以在策略空間進行泛化。另一方面是強化學習訓練環境和測試環境通常是一樣的,智能體在面對新的環境時通常表現會非常差。

元強化學習的目的就是解決多任務下,強化學習泛化性較差的問題。現在比較常用的元強化學習主要分為兩類,一種是像《MAML:Model-Agnostic Meta-Learning forFast Adaptation of Deep Networks》中基于梯度下降的方式,訓練一組初始化參數,通過在初始參數的基礎上進行一或多步的梯度調整,來達到僅用少量數據就能快速適應新task的目的。另一種則是提前學習一個基于任務的編碼器,將編碼器的結果作為任務信息輸入給智能體,幫助智能體基于不同的任務信息做出決策?,F在的方法大多基于智能體的軌跡來學習表征,然而它們都忽略了這種基于軌跡學到的信息中不僅含有環境信息,而且會包含策略信息的。

現有的元強化學習算法還存在另一個問題是普遍需要在線地與環境交互來進行學習,但是對于人類來說,人類通過對一些歷史任務的經驗觀察,快速適應并通關新的任務。在這一過程中,人僅使用了歷史任務的軌跡數據,并沒有跟歷史任務環境進行交互,但是現在的算法很少關注于這種離線的元強化學習。

發明內容

針對強化學習存在的泛化性較差的問題,本發明提出一種基于對比學習和互信息的元強化學習方法,實現了新的元強化學習方法。

本發明通過以下技術方案實現:

一種基于對比學習和互信息的元強化學習方法,該方法包括以下步驟:

步驟1、離線地提取環境表征和策略表征,其中:基于離線數據集,將來自同一環境的歷史經驗歸為正例,來自不同環境的歸為負例,通過對比學習方法進行學習,實現環境表征提??;基于變分自編碼器結構對歷史軌跡進行編碼得到策略表征,然后基于策略表征通過解碼器預測軌跡中的真實動作進行學習,實現策略表征提?。涣韺W習一個編碼器來提取環境和策略的聯合表征;

步驟2、基于互信息進行策略表征和環境表征解耦,即最小化策略表征和環境表征的互信息,然后最大化策略表征、環境表征和策略環境聯合表征的互信息;學習得到環境表征ze、策略表征zπ以及環境和策略的聯合表征zb;接著引入約束,規約環境表征與策略表征之間的解耦、緊湊以及信息充分;

步驟3,通過值函數近似來優化策略表征:將策略表征和環境表征輸入給值函數網絡,在值函數網絡訓練好后,通過對值函數網絡進行梯度上升來優化策略。

與現有技術相比,本發明在盡量少的與環境交互的前提下,讓智能體能夠快速適應新的環境,有效的提高了強化學習的泛化性。

附圖說明

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202111394546.6/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖、流程工藝圖技術構造圖;

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产精品国产三级国产专播精品人| 88国产精品欧美一区二区三区三| 免费观看xxxx9999片| 午夜影院h| 偷拍自中文字av在线| 91精品第一页| 99精品免费在线视频| 国产麻豆91欧美一区二区| 中文字幕欧美一区二区三区| 国产精品一区二区在线看| 国产97久久| 激情久久久久久| 午夜影院h| 中文字幕亚洲欧美日韩在线不卡| 国产91久| 99日本精品| 99er热精品视频国产| 亚洲精品少妇一区二区 | 爱看av在线入口| 国产精品999久久久| 国产精品日产欧美久久久久| 国产日韩欧美第一页| 99国产精品一区| 少妇高潮ⅴideosex| 91人人精品| 狠狠色噜噜狠狠狠狠69| 久久精品麻豆| 欧美高清视频一区二区三区| 精品特级毛片| 91久久香蕉| 91久久国产视频| 亚洲少妇一区二区三区| 亚洲二区在线播放视频| 欧美一区二区三区免费看| 国产一卡在线| 国产精品美女久久久另类人妖| 男女视频一区二区三区| 日韩精品一区在线视频| 国产精品久久久久久亚洲美女高潮| 99er热精品视频国产| 亚洲精品日本无v一区| 亚洲精品suv精品一区二区| 欧美日韩一区电影| 99精品小视频| 国产精品自拍在线观看| 国产一区2| 久久久久久久久亚洲精品| 国产伦精品一区二区三区照片91 | 婷婷午夜影院| 国内少妇偷人精品视频免费| 精品一区电影国产| 综合欧美一区二区三区| 视频一区欧美| 黄毛片免费| 国产精品你懂的在线| 国产综合亚洲精品| 羞羞视频网站免费| 国产伦精品一区二区三区照片91 | 精品国产一区二区三区高潮视| 99精品偷拍视频一区二区三区| 96国产精品视频| 日韩av中文字幕在线免费观看| 国产的欧美一区二区三区 | 中文字幕日本一区二区| 欧美福利一区二区| 日韩女女同一区二区三区| 日韩av在线中文| 中出乱码av亚洲精品久久天堂| 国产呻吟久久久久久久92| 国产经典一区二区| 国产精品日韩视频| 国产欧美一区二区精品婷| 久久久久久久国产| 精品国产乱码久久久久久影片| 狠狠色狠狠综合久久| 97人人模人人爽视频一区二区| 日韩一级视频在线| 日韩av在线播| 日韩亚洲精品在线| 性少妇freesexvideos高清bbw| 欧美日韩国产在线一区二区三区| 国产91综合一区在线观看| 久久第一区| 久免费看少妇高潮a级特黄按摩| 国产精品自拍不卡| 91日韩一区二区三区| 欧美日本一二三区| 日本一二三四区视频| 国产精品高潮呻| 国产精一区二区三区| 午夜理伦影院| 天天干狠狠插| 日韩av中文字幕在线| 精品国产91久久久| 高清国产一区二区三区| 日本精品一区在线| 国产床戏无遮挡免费观看网站| 91麻豆精品一区二区三区| 娇妻被又大又粗又长又硬好爽 | 97久久国产亚洲精品超碰热| 国语对白一区二区三区| 日韩av在线中文| 国产精品高清一区| 亚洲欧美一二三| 国产精品一区二区免费| 国产视频一区二区在线播放| 国产日韩精品一区二区| 美女被羞羞网站视频软件| 欧美hdxxxx| 日韩av在线影视| 88888888国产一区二区| 久久午夜鲁丝片| 17c国产精品一区二区| 日韩精品一区二区三区免费观看视频| 亚洲欧洲日韩av| 国产欧美亚洲一区二区| 国产91热爆ts人妖系列| 欧美国产三区| 亚洲精品日本无v一区| 色一情一乱一乱一区免费网站| 日本护士hd高潮护士| 国产精品国产三级国产播12软件| 三级视频一区| 狠狠插影院| 欧美日韩久久一区| 亚洲精品国产一区| 88国产精品欧美一区二区三区三| 国产精品久久免费视频在线| 国产精品高潮呻吟88av| 欧美久久一区二区三区| 国产精品久久久久久久妇女| 中文字幕一区二区三区乱码| 销魂美女一区二区| 韩国女主播一区二区| 午夜影院一区| 亚洲三区在线| 精品久久二区| 久久99精品国产麻豆婷婷洗澡| 狠狠色噜噜狠狠狠合久| 一区二区国产盗摄色噜噜| 国产精品视频久久久久| 天啦噜国产精品亚洲精品| 国产理论片午午午伦夜理片2021| 国产乱老一区视频| 99精品久久久久久久婷婷| 国产精品亚洲欧美日韩一区在线| 三级午夜片| 欧美777精品久久久久网| 国产999精品久久久久久绿帽| 99视频国产精品| 国产亚洲精品久久久456| 日韩精品免费一区二区夜夜嗨| 国产亚洲精品久久久456| 91人人爽人人爽人人精88v| 一级女性全黄久久生活片免费| 午夜av男人的天堂| 国产.高清,露脸,对白| 午夜wwww| 日本一码二码三码视频| 亚洲欧洲一区二区| 久久激情影院| 日韩精品一区二区三区免费观看视频| 午夜影皖精品av在线播放| 久久精品爱爱视频| 午夜伦全在线观看| 国产理论一区二区三区| 中文在线√天堂| 91精品美女| 91精品啪在线观看国产手机| 欧美日韩一区不卡| 欧美一区二粉嫩精品国产一线天| 欧美日韩亚洲三区| 国产精品日韩视频| 91麻豆精品国产91久久久资源速度| 一区二区久久久久| 日韩av在线电影网| 素人av在线| 欧美日韩国产综合另类| 久久人人爽爽| 国产综合久久精品| 中文在线√天堂| 精品无码久久久久国产| 97人人澡人人爽人人模亚洲| 538在线一区二区精品国产| 亚洲欧美另类综合| 91麻豆精品国产91久久久更新时间| 国产一区免费播放| 91久久香蕉国产日韩欧美9色| 欧美hdxxxx| 久久久999精品视频| 国产精品一区二区免费| 亚洲乱小说| 亚洲制服丝袜在线| 亚洲区在线| 精品国产区一区二| 日本亚洲国产精品| 私人影院av| 亚洲乱码一区二区三区三上悠亚 | 精品美女一区二区三区| 亚洲精品卡一| 国内精品久久久久久久星辰影视 | 国产91白嫩清纯初高中在线| 97人人模人人爽视频一区二区| 国产欧美一二三区| 欧美日韩综合一区二区| 国产经典一区二区三区| 91高清一区| 午夜影皖精品av在线播放| 一区二区在线视频免费观看| 国产性生交xxxxx免费| 日韩精品人成在线播放| av狠狠干| 免费a级毛片18以上观看精品| 亚洲欧美国产日韩综合| 视频一区二区国产| 国产一区2区3区| 538国产精品| 91精品国产一区二区三区| 国产99久久久精品视频| 狠狠色噜噜综合社区| 国产一区二区四区| 免费a一毛片| 国产欧美日韩在线观看| 久久综合国产精品| 国产原创一区二区| 久久97国产| 亚洲国产欧美一区二区丝袜黑人| 国产午夜精品一区理论片飘花| 亚洲欧洲日韩| 精品国产18久久久久久依依影院| 一区二区中文字幕在线| 综合色婷婷一区二区亚洲欧美国产| 精品国产一区二区三| 日本一区二区三区电影免费观看| 97人人澡人人添人人爽超碰| 国产清纯白嫩初高生在线观看性色| 久久国产精品久久久久久电车| 免费91麻豆精品国产自产在线观看| 四虎国产精品久久| 国产一区二区视频免费在线观看 | 欧美一区二区三区在线视频观看| 国产91精品高清一区二区三区| 国产欧美日韩在线观看| 久久久久久亚洲精品| 欧美67sexhd| 日本看片一区二区三区高清|