日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]基于因果圖的分層強化學習任務圖進化方法無效

專利信息
申請號: 201110369847.3 申請日: 2011-11-18
公開(公告)號: CN102521203A 公開(公告)日: 2012-06-27
發明(設計)人: 王紅兵;周建才 申請(專利權)人: 東南大學
主分類號: G06F15/18 分類號: G06F15/18;G06N3/12
代理公司: 南京天翼專利代理有限責任公司 32112 代理人: 朱戈勝
地址: 210089 江蘇*** 國省代碼: 江蘇;32
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 基于 因果 分層 強化 學習 任務 進化 方法
【說明書】:

技術領域

發明涉及利用計算機對分層強化學習的任務圖進行優化的方法。

技術背景

分層強化學習是解決強化學習維數災難問題的一種重要方法。目前分層強化學習中三種典型的方法分別是Sutton提出的Option、Parr提出的HAM和Dietterich提出的MAXQ。分層強化學習的一個重要問題是分層任務圖需要由設計者根據專家知識事先給定。由于手工構造分層強化學習的層次結構需要具備相關的專家知識,不能滿足動態未知環境的需要,于是如何自動發現并構造任務的層次結構成為分層強化學習的一個重大問題。而目前很多HRL自動分層方法都針對Option方法的,但是Option在利用先驗知識劃分子任務時任務的劃分結果表達不夠清晰且子任務內部策略難以確定。早期的關于HRL的自動分層研究主要針對Option方法,主要從發現路標狀態、共用子空間、狀態的特征向量和使子空間具有良好的Markov性質出發。這些自動分層方法總體上存在著對狀態空間的特性依賴過強的問題。由于MAXQ方法能很好的利用先驗知識并具有很強的在線學習能力,故而基于MAXQ分層強化學習方法的自動分層方法研究具有重要的意義。

目前,關于MAXQ自動分層方法主要有HI-MAT方法,但是HI-MAT得到的任務圖依賴于觀察到的一條成功路徑,從而得到任務圖結構空間中和這條軌跡一致的任務圖,這樣容易陷入局部最優。

發明內容

本發明提供了一種對HI-MAT分層強化學習任務圖自動構造方法構造出的任務圖的進行改進的方法。該方法得到的任務圖的學習速度可以和依靠專家知識構造出的任務圖一樣快,并在系統復雜時可以超過手工構造的任務圖。而且本方面所設計的改進算法可以適應環境動態變化的情況。

為實現上述目的,本發明提供一種基于因果圖的分層強化學習任務圖進化方法。在對本方法具體步驟進行描述之前,首先給出相關定義:

(a)因果圖:頂點集合為狀態變量集合和獎賞結點,邊集合為動作的作用下狀態變量之間的依賴關系,兩個狀態變量i、j之間有有向邊當且僅當存在一個動作a且它的DBN中i、j存在之間存在有向邊。

(b)強連通組件:由一個或者多個通過有向路徑可互達的狀態變量組成的集合Vc。引入強連通組件可對因果圖進行去環。

(c)組件圖:由強連通組件作為節點組成的有向圖,節點之間有邊當且僅當因果途中存在第一個節點組件中的某個狀態變量到第二個節點組件中的某個狀態變量在因果圖中有邊。組件圖是去環后的因果圖。

(d)狀態變量V的依賴狀態變量集由其所在強連通組件中的其它狀態變量和組件圖中有到此強連通組件的邊的組件所含狀態變量組成。

(e)任務(task)Ti=(Xi,Gi,Ci),其中Xi為Ti值函數的相關變量,Gi為目標或終止謂詞,Ci為子任務集合。

(f)任務結點之間保持因果依賴性是指父任務結點Ti的Xi中存在狀態變量其依賴狀態變量集Vdi中含有子任務結點Tj的Xj中的狀態變量。即對父任務結點Ti和其任意子任務結點Tj(ViXi)Λ(VjXj)Λ(VjVdi).]]>

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201110369847.3/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 清纯唯美经典一区二区| 91精品一二区| 日韩一区二区福利视频| 中文字幕一区一区三区| 久久天天躁夜夜躁狠狠躁2022| 狠狠色噜噜狠狠狠狠色综合久老司机| 日韩亚洲欧美一区二区| 午夜看片网站| 日韩欧美多p乱免费视频| 99日韩精品视频| 欧美资源一区| 欧美激情片一区二区| 91麻豆国产自产在线观看hd| 欧美日韩综合一区| 久久精品爱爱视频| 国产精品日韩在线观看| 国产一区二区精品免费| 日韩不卡毛片| 久久精品亚洲一区二区三区画质| 国产精品99999999| 欧美777精品久久久久网| 中文字幕a一二三在线| 国产精品日韩一区二区| 亚洲午夜精品一区二区三区| 久久久久国产精品免费免费搜索| 国产精品久久国产精品99| 国产欧美一区二区在线观看| 91人人精品| 欧美一区二区激情三区| 国产精品国产三级国产播12软件 | 亚洲欧美一区二区三区不卡| 亚洲神马久久| 午夜看片在线| 日韩欧美国产另类| 日本一区二区在线观看视频| 亚洲精品性| 久久精品一| 亚洲国产精品97久久无色| 午夜影院91| 欧美人妖一区二区三区| 国产精品白浆视频| 国产欧美一区二区三区沐欲 | 国产69精品久久777的优势| 日韩av在线影视| 国产一区欧美一区| 国产精品一区亚洲二区日本三区| 精品国产免费久久| 美女脱免费看直播| 午夜肉伦伦| 一级久久久| 日本午夜精品一区二区三区| 国产一卡二卡在线播放| 国产一区二区三区在线电影| 国内久久久| 午夜生活理论片| 国产第一区二区| 欧美一级片一区| 一区二区三区欧美日韩| 性欧美激情日韩精品七区| 美日韩一区| 中文字幕一区二区三区免费| 国产乱码精品一区二区三区中文| 97欧美精品| 国内视频一区二区三区| 四季av中文字幕一区| 国产在线不卡一区| 性国产日韩欧美一区二区在线 | 免费毛片**| 91精品美女| 91精品综合| 综合国产一区| 午夜码电影| 亚洲福利视频一区| 欧美精选一区二区三区| 精品国产一区二区三区麻豆免费观看完整版| 国产黄色一区二区三区| 久久国产麻豆| 激情久久一区二区三区| 亚洲精品456在线播放| 欧美系列一区二区| 国产精品久久久视频| 国产午夜精品一区二区理论影院 |