日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]減少過估計的模型化強化學習機器人控制方法及系統有效

專利信息
申請號: 202110757340.9 申請日: 2021-07-05
公開(公告)號: CN113419424B 公開(公告)日: 2023-08-18
發明(設計)人: 李秀;賈若楠 申請(專利權)人: 清華大學深圳國際研究生院
主分類號: G05B13/04 分類號: G05B13/04
代理公司: 北京紀凱知識產權代理有限公司 11245 代理人: 孫楠
地址: 518071 廣東*** 國省代碼: 廣東;44
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 減少 估計 模型 強化 學習 機器人 控制 方法 系統
【權利要求書】:

1.一種減少過估計的模型化強化學習機器人控制方法,其特征在于,包括:

步驟1、初始化環境和各網絡參數;

步驟2、利用與真實環境的交互數據訓練環境模型;

步驟3、利用策略網絡πφ與訓練后的環境模型交互,將交互數據存放在數據存放器Dmodel中;

步驟4、根據環境模型,采用Actor-Critic方法進行策略訓練,其中Critic評估方法采用帶有方差懲罰項的評估方式,估計值根據權重λ進行調節;

步驟5、重復執行步驟2至步驟4,直至收斂;

所述步驟4中,訓練方法包括以下步驟:

步驟41、Critic部分對狀態動作進行評估,Actor部分為選擇動作的策略;

Critic的損失函數JQi)為:

其中,Var表示方差;智能體每個時刻觀測到狀態為st,根據當前狀態由策略π產生一個動作at;

Actor部分的損失函數Jπ(φ)為:

其中,dπ表示在策略π下狀態的平穩分布;

步驟42、更新Q函數網絡和策略網絡的參數,并每隔預先設定時間更新Q-target函數網絡參數;

更新方法為:

其中,ψi表示第i個Q網絡參數,表示第i個Q-target函數網絡參數,φ表示策略網絡參數,表示對JQ的參數ψ求梯度,表示對Jπ的參數φ求梯度,ω,ωπ和ωQ分別相應的更新步長。

2.如權利要求1所述強化學習機器人控制方法,其特征在于,所述步驟1中,初始化構建策略網絡πφ,Q函數網絡{Qψ1,Qψ2},Q-target函數網絡及環境模型以及構建真實環境的數據存放器Denv←φ和預測環境模型的數據存放器Dmodel←φ。

3.如權利要求1所述強化學習機器人控制方法,其特征在于,所述步驟2中,環境模型的訓練方法包括以下步驟:

步驟21、利用策略πφ與真實環境交互,將交互數據存放在真實環境的數據存放器Denv

步驟22、通過極大似然的損失函數訓練環境預測模型。

4.如權利要求3所述強化學習機器人控制方法,其特征在于,所述步驟22中,根據環境模型訓練損失函數LML得到N個環境模型的更新方式為:

式中,θi表示第i個環境模型的網絡參數,ωL表示更新步長的調節因子,表示對LML的θ求梯度。

5.如權利要求4所述強化學習機器人控制方法,其特征在于,所述環境模型訓練損失函數LML為:

式中,T表示矩陣的轉置操作,μθ表示參數為θ的均值向量,sn表示第n個模型所處的狀態信息,an表示第n個模型所處的動作信息,det表示計算矩陣的行列式。

6.如權利要求1所述強化學習機器人控制方法,其特征在于,所述步驟5中,收斂條件為:與環境交互的次數大于預先設定的數值。

7.一種減少過估計的模型化強化學習機器人控制系統,其特征在于,包括:初始化模塊、環境模型訓練模塊、數據交互模塊、策略訓練模塊和收斂模塊;

所述初始化模塊,用于初始化環境和各網絡參數;

所述環境模型訓練模塊,利用與真實環境的交互數據訓練環境模型;

所述數據交互模塊,利用策略網絡πφ與訓練后的環境模型交互,將交互數據存放在數據存放器Dmodel中;

所述策略訓練模塊,根據環境模型,采用Actor-Critic方法進行策略訓練,其中Critic評估方法采用帶有方差懲罰項的評估方式,估計值根據權重λ進行調節;

所述收斂模塊,重復執行所述環境模型訓練模塊、所述數據交互模塊和所述策略訓練模塊,直至收斂;

所述策略訓練模塊中,訓練方法包括以下步驟:

步驟41、Critic部分對狀態動作進行評估,Actor部分為選擇動作的策略;

Critic的損失函數JQi)為:

其中,Var表示方差;智能體每個時刻觀測到狀態為st,根據當前狀態由策略π產生一個動作at;

Actor部分的損失函數Jπ(φ)為:

其中,dπ表示在策略π下狀態的平穩分布;

步驟42、更新Q函數網絡和策略網絡的參數,并每隔預先設定時間更新Q-target函數網絡參數;

更新方法為:

其中,ψi表示第i個Q網絡參數,表示第i個Q-target函數網絡參數,φ表示策略網絡參數,表示對JQ的參數ψ求梯度,表示對Jπ的參數φ求梯度,ω,ωπ和ωQ分別相應的更新步長。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學深圳國際研究生院,未經清華大學深圳國際研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202110757340.9/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖;

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产第一区二区| 久久综合伊人77777麻豆最新章节| 少妇bbwbbwbbw高潮| 日本一二三区电影| 午夜一区二区视频| 香港三日三级少妇三级99| 一区二区中文字幕在线观看| 国产精品乱码一区| 日本二区在线观看| 夜夜躁日日躁狠狠躁| 国产一区网址| 午夜肉伦伦| 免费看欧美中韩毛片影院| 久久婷婷国产香蕉| 国产91高清| 欧美精品一卡二卡| 日本看片一区二区三区高清| 欧美三级午夜理伦三级老人| 日韩av中文字幕在线免费观看| 国产91在线播放| 欧洲在线一区| 久久99精品久久久久婷婷暖91| 日韩亚洲国产精品| 午夜亚洲影院| 91麻豆产精品久久久| 精品久久久久一区二区| 久久综合国产精品| 国产一区二区高潮| 四虎国产永久在线精品| 一区二区三区电影在线观看| 一区二区中文字幕在线| 欧美日韩精品在线一区二区| 国产精品国产三级国产播12软件 | 狠狠色丁香久久综合频道| 中文字幕一二三四五区| 国产aⅴ一区二区| 亚洲精品一区二区另类图片| 日本午夜精品一区二区三区| 午夜wwwww| 亚洲欧美日本一区二区三区 | 99日韩精品视频| 日本一区欧美| 护士xxxx18一19| 91麻豆精品国产91久久久资源速度| 国模一区二区三区白浆| 色一情一交一乱一区二区三区| 久久激情影院| 美国三级日本三级久久99| 欧美网站一区二区三区| 欧美一区二三区人人喊爽| 国产高清在线精品一区二区三区| 国产不卡一二三区| 国产亚洲精品久久久久秋霞| 国产不卡一二三区| 亚日韩精品| 91精品国产综合久久婷婷香| 国产aⅴ精品久久久久久| 991本久久精品久久久久| 一区二区三区中文字幕| 国产品久精国精产拍| 69精品久久| 精品国产乱码一区二区三区在线| 少妇中文字幕乱码亚洲影视| 国产精品网站一区| 精品国产一区二区三区久久久久久| 羞羞免费视频网站| 国产69精品久久久久久久久久| 久久99精品久久久秒播| 91久久国产视频| 国产二区不卡| 一区二区三区在线影院| 狠狠色噜噜狠狠狠四色米奇| 日韩亚洲精品在线| 国产精品一二三区免费| 日本一区二区在线观看视频 | 国产床戏无遮挡免费观看网站 | 国产精品96久久久| 亚洲乱强伦| 久久国产精品网站| 色婷婷精品久久二区二区蜜臂av| 精品少妇一区二区三区 | 色婷婷久久一区二区三区麻豆| 日本三级韩国三级国产三级| 夜夜精品视频一区二区| 国产毛片精品一区二区| 久久99精品久久久大学生| 亚洲美女在线一区| 在线国产精品一区二区| 欧美67sexhd| 性old老妇做受| 久久国产精品久久| 亚洲国产aⅴ精品一区二区16| 高清欧美xxxx| 色妞www精品视频| 欧美日韩一区二区三区四区五区六区| 久久久人成影片免费观看| 午夜毛片在线| www.日本一区| 亚洲欧美一区二区精品久久久| 午夜性电影| 性欧美激情日韩精品七区| 日韩精品中文字幕久久臀| 国产91在线拍偷自揄拍| 亚洲精品国产久| 欧美一区二粉嫩精品国产一线天| 国产区一区| 国产真裸无庶纶乱视频| 91视频一区二区三区| 久久天堂国产香蕉三区| 国产1区在线观看| 日韩一区二区三区福利视频| 国内久久久久久| 日韩精品久久久久久久的张开腿让 | 久久99精品久久久久婷婷暖91| 91精品国产综合久久婷婷香| 男女视频一区二区三区| 欧美日韩中文字幕一区二区三区 | 91人人精品| 欧美日韩精品中文字幕| 精品欧美一区二区精品久久小说| freexxxx性| 中文字幕一二三四五区| 视频国产一区二区| 91人人爽人人爽人人精88v| 夜色av网站| 欧美一区二区三区久久久久久桃花| 97精品国产aⅴ7777| 国产97在线播放| 国产电影一区二区三区下载| 国产一区午夜| 久久第一区| 久久一区二区三区欧美| 99国产超薄丝袜足j在线观看| 男女无遮挡xx00动态图120秒| 88888888国产一区二区| 欧美日韩国产专区| 91看片淫黄大片91| 午夜激情综合网| 狠狠躁日日躁狂躁夜夜躁| 亚洲欧美日韩国产综合精品二区 | 亚洲欧美另类综合| 一区二区在线视频免费观看 | 久久99精品久久久久婷婷暖91 | 国产1区2区视频| 国产日韩欧美另类| 欧洲在线一区| 久久不卡精品| 狠狠色噜噜狠狠狠合久| 免费高潮又黄又色又爽视频| 国内自拍偷拍一区| 精品少妇的一区二区三区四区| 欧美极品少妇xx高潮| 黄色国产一区二区| 鲁一鲁一鲁一鲁一鲁一av| 午夜爽爽爽男女免费观看| 国产福利一区在线观看| 夜夜精品视频一区二区| 国产免费观看一区| 午夜剧场伦理| 国产69精品久久久久777糖心| 国产大片一区二区三区| 国产一区精品在线观看| 欧美日韩九区| 国产第一区二区三区| 欧美精品在线观看一区二区| 亚洲va国产| 91精品丝袜国产高跟在线| 国产精品久久91| 久久99精品久久久久婷婷暖91| 国产一区二区高清视频| 久久久综合亚洲91久久98| 日韩精品一区二区三区四区在线观看| 欧美一级不卡| 亚洲高清毛片一区二区| 综合欧美一区二区三区| 国产白嫩美女在线观看| 亚洲欧美日韩综合在线| 日韩精品免费一区二区三区| 自拍偷在线精品自拍偷写真图片| 91一区二区三区在线| 亚洲国产精品一区二区久久,亚洲午夜 | 日韩欧美国产第一页| 午夜毛片在线看| 欧美综合在线一区| 欧美久久久一区二区三区| 国产免费一区二区三区四区| 狠狠色狠狠色88综合日日91| 亚洲精品日韩在线| 久久国产精品久久| 大bbw大bbw巨大bbw看看| 97欧美精品| 欧美一区二区三区国产精品| 四虎国产永久在线精品| 热re99久久精品国99热蜜月| 91精品视频在线观看免费| 欧美日韩久久一区| 久久久久久久国产| 久99精品| 欧美日韩国产色综合一二三四| 国产人澡人澡澡澡人碰视| 精品国产一区二区三区忘忧草| 国产性猛交xx乱视频| 中文字幕在线播放一区| 国产精品日韩一区二区三区| 日本免费电影一区二区| 国产欧美精品一区二区三区小说| 久久国产精品99国产精| 李采潭伦理bd播放| 亚洲一区2区三区| 91麻豆精品国产91久久久资源速度 | 久久国产精品视频一区| 亚洲精品456| 国产一区午夜| 国产69精品99久久久久久宅男| 国产精品一二三区视频出来一 | 亚洲高清久久久| 国产午夜亚洲精品午夜鲁丝片| 自偷自拍亚洲| 又黄又爽又刺激久久久久亚洲精品| 国产在线精品二区| 欧美一区二区三区免费电影| 精品一区二区超碰久久久| 午夜一区二区视频| 精品国产区| 日本一区欧美| 日韩在线一区视频| 欧美一区二区三区在线视频播放| 99日本精品| 一区二区免费在线观看| 欧美日韩久久一区| 久久99精品国产99久久6男男| 国产精品久久国产三级国电话系列 | 亚洲久色影视| 99视频一区| 亚洲日韩欧美综合| 久久精品视频3| 欧美日韩精品中文字幕| 欧美日韩国产精品一区二区| 国模吧一区二区| 欧美日韩一区二区三区69堂| 国产精品视频一区二区在线观看| 国产91视频一区| 国产一区二区二| 精品婷婷伊人一区三区三| 欧美日韩九区| 日韩一级片免费视频|