日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]減少過估計的模型化強化學習機器人控制方法及系統有效

專利信息
申請號: 202110757340.9 申請日: 2021-07-05
公開(公告)號: CN113419424B 公開(公告)日: 2023-08-18
發明(設計)人: 李秀;賈若楠 申請(專利權)人: 清華大學深圳國際研究生院
主分類號: G05B13/04 分類號: G05B13/04
代理公司: 北京紀凱知識產權代理有限公司 11245 代理人: 孫楠
地址: 518071 廣東*** 國省代碼: 廣東;44
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 減少 估計 模型 強化 學習 機器人 控制 方法 系統
【說明書】:

發明涉及一種減少過估計的模型化強化學習機器人控制方法及系統,其包括:初始化環境和各網絡參數;利用與真實環境的交互數據訓練環境模型;利用策略網絡πsubgt;φ/subgt;與訓練后的環境模型交互,將交互數據存放在數據存放器Dsubgt;model/subgt;中;根據環境模型,采用Actor?Critic方法進行策略訓練,其中Critic評估方法采用帶有方差懲罰項的評估方式,估計值根據權重λ進行調節;重復執行,直至收斂。本發明能解決策略退化的問題,緩解值函數的過估計問題。本發明可以廣泛在機器人控制領域中應用。

技術領域

本發明涉及一種機器人控制領域,特別是關于一種減少過估計的模型化強化學習機器人控制方法及系統。

背景技術

深度強化學習具有一定的自主學習能力,無需給定先驗知識,只需與環境進行不斷交互,最終通過訓練找到適合當前狀態的最優策略,進而獲得整個決策過程的最大累積獎勵回報。根據智能體對交互環境信息的利用方法,強化學習可分為無模型強化學習和模型化強化學習兩大類。無模型強化學習方法是智能體不斷探索環境,不斷試錯,通常需要大量訓練樣本及訓練時間,才能保證智能體滿足一定要求。模型化強化學習方法首先需要對環境建模,得到環境模型后,此類方法無需與真實環境交互,可直接利用學得的環境模型生成所需訓練樣本進行策略學習,從而在一定程度上緩解樣本利用率低及學習效率低的問題。另外,如果所學得的環境模型足夠精確,智能體就可根據該模型在其從未訪問過的區域進行策略搜索。然而,學得的環境模型與真實環境間往往存在模型誤差,難以保證算法的最優解漸近收斂。

另外,強化學習中基于值函數估計的算法往往會由于大規模的動作值過估計而出現不穩定和效果不佳等現象的存在,而導致過估計的主要原因來自于最大化值函數max逼近,該過程目標是為了最大的累計期望獎勵,而在這個過程中產生了正向偏差。

在值函數強化學習的機器人控制領域,現有相關技術中的基于多重目標神經網絡的強化學習值函數更新方法中,提出基于多重目標神經網絡的強化學習值函數更新方法,使得減少值函數估計過程中的過估計誤差,從而得到最終策略。但是該現有技術存在以下缺陷:(1)使用無模型的強化學習方法,使得算法采樣效率偏低。(2)采用基于值函數的強化學習方法,會存在策略退化問題,即值函數估計準確,但通過值函數得到的策略仍然不是最優。(3)使用多重目標神經網絡估計值函數的方式,造成值函數的計算較為復雜,對計算資源消耗較大。

發明內容

針對上述問題,本發明的目的是提供一種減少過估計的模型化強化學習機器人控制方法及系統,其能解決策略退化的問題,緩解值函數的過估計問題。

為實現上述目的,本發明采取以下技術方案:一種減少過估計的模型化強化學習機器人控制方法,其包括:步驟1、初始化環境和各網絡參數;步驟2、利用與真實環境的交互數據訓練環境模型;步驟3、利用策略網絡πφ與訓練后的環境模型交互,將交互數據存放在數據存放器Dmodel中;步驟4、根據環境模型,采用Actor-Critic方法進行策略訓練,其中Critic評估方法采用帶有方差懲罰項的評估方式,估計值根據權重λ進行調節;步驟5、重復執行步驟2至步驟4,直至收斂。

進一步,所述步驟1中,初始化構建策略網絡πφ,Q函數網絡{Qψ1,Qψ2},Q-target函數網絡及環境模型以及構建真實環境的數據存放器Denv←φ和預測環境模型的數據存放器Dmodel←φ。

進一步,所述步驟2中,環境模型的訓練方法包括以下步驟:

步驟21、利用策略πφ與真實環境交互,將交互數據存放在真實環境的數據存放器Denv

步驟22、通過極大似然的損失函數訓練環境預測模型。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學深圳國際研究生院,未經清華大學深圳國際研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202110757340.9/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 狠狠色丁香久久综合频道日韩| 99精品国产一区二区三区不卡 | 国产视频一区二区在线播放| 国产精品二区在线| 国产一区二区三区精品在线| 日韩av在线导航| 久久久久久久久亚洲精品| 精品99免费视频| 中文字幕一区二区三区又粗| 欧美一区二区三区艳史| 久久99国产综合精品| 国产欧美日韩另类| 亚洲欧美日本一区二区三区 | 久久久久久亚洲精品中文字幕| 99国产伦精品一区二区三区| 国产高清在线一区| 日本高清不卡二区| 欧美日韩中文不卡| 91精品一二区| 亚洲国产精品国自产拍久久| 久久99国产精品久久99| 91久久国产露脸精品国产| 农村妇女毛片精品久久| 日韩精品一区二区中文字幕| www亚洲精品| 最新国产精品自拍| 欧美日韩精品在线一区| 97视频一区| 国产亚洲精品久久午夜玫瑰园| 亚洲精品国产精品国自| 国产日韩欧美亚洲综合| 欧美一级免费在线视频| 一本色道久久综合亚洲精品图片 | 亚洲精品日韩色噜噜久久五月| 欧美一区二区三区久久久久久桃花| 日本精品一区二区三区视频| 福利视频亚洲一区| 午夜剧场a级片| 日韩欧美国产高清91| 久久综合激情网| 国产精品日韩精品欧美精品 | 视频一区二区中文字幕| 国产丝袜在线精品丝袜91| 国产电影一区二区三区下载| 日韩精品一区二区三区四区在线观看| 日韩精品久久久久久久的张开腿让| 二区三区免费视频| 国产精品一区二| 久久精品男人的天堂| 亚洲国产另类久久久精品性| 国产免费一区二区三区四区五区| 亚洲精品中文字幕乱码三区91| 性色av色香蕉一区二区| 久久综合伊人77777麻豆最新章节 一区二区久久精品66国产精品 | 年轻bbwbbw高潮| 玖玖国产精品视频| 国产精品视频二区不卡| 久久九九亚洲| 亚洲精品456| 日本丰满岳妇伦3在线观看| 中文文精品字幕一区二区| 欧美综合在线一区| 日韩精品免费播放| 日韩精品少妇一区二区在线看| 国产91久久久久久久免费 | 日韩精品中文字幕一区二区| 国内久久久| 亚洲免费精品一区二区| 中文字幕另类日韩欧美亚洲嫩草| 欧美日韩国产影院| 久久久精品免费看| 日韩av在线电影网| 国91精品久久久久9999不卡| 日本黄页在线观看| aaaaa国产欧美一区二区| 国产精品天堂网| 国产午夜精品一区二区三区视频 | 欧美日韩国产在线一区| 亚洲自拍偷拍中文字幕| 久99精品| 久久er精品视频| 96国产精品| 精品国产乱码久久久久久软件影片| 国产区一二| 中文字幕理伦片免费看| 国产理论片午午午伦夜理片2021| 国产日韩一区二区在线| 狠狠色噜噜狠狠狠狠88| 少妇中文字幕乱码亚洲影视| 国产69精品福利视频| 国产精品精品视频一区二区三区| 99久久久久久国产精品| 亚洲国产精品国自产拍av| 国产精品亚洲第一区| 欧美国产一区二区在线| 中文字幕精品一区二区三区在线| 午夜特片网| 亚洲精品乱码久久久久久高潮| 国产亚洲久久| 亚洲精品国产一区| 久久福利免费视频| 四虎影视亚洲精品国产原创优播| 国产偷自视频区视频一区二区| 国产一级二级在线| 国产理论一区| 99日本精品| 国产一级自拍片| 99国产精品久久久久| 国产在线不卡一区| www.久久精品视频| 国产91一区| 日本精品一区二区三区在线观看视频 | 久久精品国产亚| 狠狠色噜噜狠狠狠狠黑人| 99日本精品| 国产午夜精品一区二区三区最新电影| 国产午夜精品一区二区三区视频| 国产日韩一区在线| 一区二区三区毛片| 国产精品区一区二区三| 欧美日韩三区| 久久激情影院| 日韩av一区二区在线播放| 日韩精品一区二区中文字幕| 国产欧美视频一区二区三区| av不卡一区二区三区| 国产一区二区电影| 国产亚洲精品久久久久秋霞| 一级久久久| 精品福利一区| 日韩偷拍精品| 少妇高潮一区二区三区99小说| 国产69精品久久99的直播节目 | 991本久久精品久久久久| 国产精品99久久久久久宅男| 精品国产一区二| 久久99久久99精品免观看软件 | 欧美视屏一区| 国产一区二区三区在线电影| 人人要人人澡人人爽人人dvd| 亚洲天堂国产精品| 国产另类一区| 国产精品99在线播放| 国产色99| 久久九九国产精品| 97精品国产97久久久久久免费| 91精品久久天干天天天按摩| 李采潭无删减版大尺度| 国产精品免费一视频区二区三区| 国产一区网址| 国产精品色婷婷99久久精品| 欧美性猛交xxxxxⅹxx88| 亚洲高清久久久| 日本精品一区二区三区在线观看视频| 日韩欧美中文字幕精品| 久久99久国产精品黄毛片入口| 国产1区2区3区中文字幕| 久久精品99国产国产| 日本aⅴ精品一区二区三区日| 国产欧美视频一区二区三区| 日韩欧美国产高清91| 国产91高清| 国产精品人人爽人人做av片 | 日本一区二区在线电影| 日韩国产精品久久| 久久精品视频中文字幕| 日本xxxx护士高潮hd| 国产精品久久久久久亚洲美女高潮| 少妇bbwbbwbbw高潮| 欧美精品日韩精品| 久久精品国语| 午夜私人影院在线观看| 国产午夜精品免费一区二区三区视频| 亚洲欧美国产中文字幕| 亚洲国产精品美女| 91免费视频国产| 欧美精品五区| 肉丝肉足丝袜一区二区三区| 91午夜精品一区二区三区| 亚洲欧美制服丝腿| 国产精品久久久久久久龚玥菲| 午夜影院黄色片| 日韩中文字幕在线一区二区| 国产91在| 国产精品综合一区二区三区| 91国偷自产中文字幕婷婷| 香蕉久久国产| 日韩精品久久久久久久的张开腿让| 国产精品白浆视频| 欧美日韩一级二级三级| 中文字幕在线一二三区| 91精品国产综合久久婷婷香| 91麻豆精品国产91久久久无限制版| 91麻豆精品国产91久久久久| 国模少妇一区二区三区| 国产亚洲精品久久午夜玫瑰园| 超碰97国产精品人人cao| 国偷自产一区二区三区在线观看| 一区二区在线国产| 国产91在线播放| 欧美亚洲精品一区二区三区| 国产一级一区二区三区| 99色精品视频| 国产另类一区| 69久久夜色精品国产69–| 国产午夜精品一区二区三区欧美| 一区二区精品久久| 一本久久精品一区二区| 日韩欧美精品一区二区三区经典| 国产一区二区在线91| 日韩精品久久一区二区| 欧美一区二区三区精品免费| 国产精品久久久久99| 欧美系列一区| 国产伦精品一区二区三区免费迷| 国产女性无套免费看网站| 精品国产一区二区三区在线| 欧美日韩一区二区三区免费| 97国产精品久久久| 国产精选一区二区| 国产精品久久久久久久久久不蜜臀| 91久久免费| 亚洲高清久久久| 色婷婷久久一区二区三区麻豆 | 国产二区视频在线播放| 日本一二三四区视频| 夜夜躁人人爽天天天天大学生| 国产精品不卡在线| 国产精品国产三级国产专区53| 色婷婷精品久久二区二区6| 精品一区二区三区视频?| 国产一区二区麻豆| 欧美hdxxxx| 国产精品亚州| xxxxx色| 四虎国产精品久久| 91精品资源| 视频一区二区三区中文字幕| 国产精品伦一区二区三区在线观看| 制服丝袜二区| 国产天堂第一区| 亚洲w码欧洲s码免费| 亚洲国产精品一区在线观看| 精品国产一区二区三区久久久久久 | 欧美精品综合视频| 7799国产精品久久99|