[發明專利]基于因果圖的分層強化學習任務圖進化方法無效
| 申請號: | 201110369847.3 | 申請日: | 2011-11-18 |
| 公開(公告)號: | CN102521203A | 公開(公告)日: | 2012-06-27 |
| 發明(設計)人: | 王紅兵;周建才 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06F15/18 | 分類號: | G06F15/18;G06N3/12 |
| 代理公司: | 南京天翼專利代理有限責任公司 32112 | 代理人: | 朱戈勝 |
| 地址: | 210089 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 因果 分層 強化 學習 任務 進化 方法 | ||
1.一種基于因果圖的分層強化學習任務圖進化方法,其特征是步驟包括:
(1)參數設置;
(2)探索目標環境的因果圖;
(3)種群N初始化;
(4)計算適應度值;
(5)遺傳操作,包括選擇、交叉和變異;操作時保持結點之間的因果關系;
(6)判斷是否終止;
(7)保存此因果圖對應的k個適應度最高的任務圖G1,G2,…,GK;
(8)輸出適應度最高的任務圖G1。
2.根據權利要求1所述的特征是所述的基于因果圖的分層強化學習任務圖進化方法,其特征是步驟1)中,進行進化的參數設置,包括種群規模、最大迭代次數、交叉概率和變異概率。
3.根據權利要求1所述的特征是所述的基于因果圖的分層強化學習任務圖進化方法,其特征是所述步驟3)中,進行種群M的初始化:
已知層次圖種群U1:HI-MAT構造出的現有環境的任務圖,如數量少于一個閥值,則進行單親繁殖,繁殖時保持因果依賴性;
隨機生成圖種群U2:隨機構造的任務圖,包括從包含所有原子動作的任務圖到包含所有合成子任務的任務圖;
M=U1+U2,M指初始化后生成的種群。
4.根據權利要求1所述的特征是所述的基于因果圖的分層強化學習任務圖進化方法,其特征是所述步驟4)中,計算適應度值:
Fitness(g)=total-reward(g)/steps:運行種群中的任務圖,計算各個體的適應度。
5.根據權利要求1所述的特征是所述的基于因果圖的分層強化學習任務圖進化方法,其特征是所述步驟5)中,
選擇:對適應度高的個體以更大的概率進行復制,各個體被選擇進行復制的概率選擇復制后生成N個個體;
交叉:隨機選擇N*Pc個個體進行交配,每對個體通過交配產生兩個新個體,代替原來的“老”個體,而不參與交配的個體則保持不變;對于兩個父個體,其子任務節點的交換時保持因果依賴性;
變異:隨機選擇N*Pm個個體的基因進行變異操作;
變異策略:隨機選擇個體的若干個子任務結點,對這些結點進行以下三種變換中的一種:
將結點用隨機產生且保持父子任務結點的因果依賴關系的結點進行替換;
重新產生新的子樹來替代舊子樹并保持因果依賴性;
交換結點的左右子樹,更新M。
本步驟中,Pc指交叉概率,Pm指變異概率,在參數設置時進行設置。
6.根據權利要求1所述的特征是所述的基于因果圖的分層強化學習任務圖進化方法,其特征是所述6)中,判斷是否終止的終止條件:執行次數大于n次且適應度最高的k個個體結構一樣且適應度高的一半個體和此k個個體的距離<a;未滿足終止條件則轉步驟3)。
7.根據權利要求1所述的特征是所述的基于因果圖的分層強化學習任務圖進化方法,其特征是交叉時,根據各個體的距離,進行遠親雜交。
8.根據權利要求1所述的基于因果圖的分層強化學習任務圖進化方法,其特征是當目標環境的因果圖逐漸變化時,需要調整算法適用這種動態變化的情況:采用保存先前學習的因果圖的對應k個適應度最高的任務圖,利用這種記憶機制加快學習;
處理變化的目標環境的步驟是:(a)當任務圖的學習性能下降了一個閾值時,啟動DBN學習算法;(b)構造因果圖;(c)此因果圖和先前保存的因果圖進行比較,選擇相同或最相似的因果圖對應的k個適應度最高的任務圖;(d)將此k個任務圖加入初始種群并重新啟動任務圖進化學習算法;(e)使用進化后的任務圖執行任務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110369847.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:具有偏置鉸鏈的櫥柜
- 下一篇:一種基于燃料電池的熱電聯供系統





