[發明專利]一種基于模糊規則和決策樹的策略強化學習方法在審
| 申請號: | 202211308748.9 | 申請日: | 2022-10-25 |
| 公開(公告)號: | CN115618924A | 公開(公告)日: | 2023-01-17 |
| 發明(設計)人: | 蘇苒;劉鵬;孫倩 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 劉子文 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模糊 規則 決策樹 策略 強化 學習方法 | ||
1.一種基于模糊規則和決策樹的策略強化學習方法,其特征在于,基于策略生成模塊、策略細化模塊和規則決策模塊,策略生成模塊和策略細化模塊組成策略網絡;其中策略生成模塊用于輸出初始策略,策略細化模塊用于優化初始策略以獲得優化策略,規則決策模塊用于評估優化策略和擴展模糊規則集;具體步驟如下:
根據強化學習環境確定初始的模糊規則集,模糊規則集為空的規則集或由若干序列化的模糊規則組成,之后將模糊規則集輸入策略生成模塊,策略生成模塊輸出初始策略并將初始策略輸入策略細化模塊,策略細化模塊輸出優化策略;
將優化策略輸入規則決策模塊,規則決策模塊輸出新的模糊規則集,新的模糊規則集進一步輸入到策略生成模塊;
策略生成模塊、策略細化模塊和規則決策模塊反復迭代形成自適應增長流程,并最終輸出強化學習策略模型和全局最優的模糊規則集。
2.根據權利要求1所述一種基于模糊規則和決策樹的策略強化學習方法,其特征在于,策略生成模塊是在模糊決策樹上結合模糊規則,以一條從根節點到葉子節點的節點路徑作為一條預測路徑,最終輸出一個基于強化學習環境的當前狀態S的初始策略τ(S)。
3.根據權利要求2所述一種基于模糊規則和決策樹的策略強化學習方法,其特征在于,策略生成模塊在自適應增長流程中逐漸形成如下三條模糊規則a、b和c:
a、如果s3滿足NE且s4滿足NE,那么動作選取a0;
b、如果s3滿足PO且s4滿足NE,那么動作選取a0;
c、如果s3滿足PO且s4滿足PO,那么動作選取a1;
其中s3和s4是輸入的對應強化學習環境的狀態分量;NE和PO是輸入的對應強化學習環境的模糊集語義,NE表示是負數的,PO表示是正數的;a0和a1是輸入的對應強化學習環境的動作分量。
模糊規則a對應的策略生成模塊中的root-leaf路徑的計算如下:
uNE是模糊集NE的隸屬度函數,分別表示uNE對應決策節點的學習權重,是uNE對應葉子節點的學習權重,a0是模糊規則a最終決策選擇的動作;
模糊規則b對應的策略生成模塊中的root-leaf路徑的計算如下:
模糊規則c對應的策略生成模塊中的root-leaf路徑的計算如下:
在獲得模糊規則a、b和c分別成立的強度和后,策略生成模塊從相同動作的若干強度值中取最大值,如下所示:
最終a0和a1組成策略生成模塊最終輸出的初始策略τ(S)。
4.根據權利要求1所述一種基于模糊規則和決策樹的策略強化學習方法,其特征在于,策略細化模塊的計算過程如下:
π(S)=Gθ=H(s)(S,τ(S))
其中θ=H(S)表示多層全連接網絡G的權重θ由一個超網絡H負責生成,超網絡H需要輸入當前狀態S;τ(S)為策略生成模塊的輸出,π(S)為策略細化模塊輸出的優化策略。
5.根據權利要求1所述一種基于模糊規則和決策樹的策略強化學習方法,其特征在于,規則決策模塊包括結構擴展和性能評估兩個階段;
結構擴展階段中,輸入策略生成模塊的拓撲結構,對輸入策略生成模塊的拓撲結構進行修改和擴展,輸出新的拓撲結構;
性能評估階段中,輸入策略細化模塊輸出的優化策略,對優化策略進行性能評估,輸出評估結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211308748.9/1.html,轉載請聲明來源鉆瓜專利網。





