[發(fā)明專利]一種基于模糊規(guī)則和決策樹的策略強化學(xué)習(xí)方法在審
| 申請?zhí)枺?/td> | 202211308748.9 | 申請日: | 2022-10-25 |
| 公開(公告)號: | CN115618924A | 公開(公告)日: | 2023-01-17 |
| 發(fā)明(設(shè)計)人: | 蘇苒;劉鵬;孫倩 | 申請(專利權(quán))人: | 天津大學(xué) |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 劉子文 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 模糊 規(guī)則 決策樹 策略 強化 學(xué)習(xí)方法 | ||
本發(fā)明公開一種基于模糊規(guī)則和決策樹的策略強化學(xué)習(xí)方法,基于策略生成模塊、策略細化模塊和規(guī)則決策模塊,策略生成模塊用于輸出初始策略,策略細化模塊用于優(yōu)化初始策略以獲得優(yōu)化策略,規(guī)則決策模塊用于評估優(yōu)化策略和擴展模糊規(guī)則集;具體步驟如下:將模糊規(guī)則集輸入策略生成模塊,策略生成模塊輸出初始策略并將初始策略輸入策略細化模塊,策略細化模塊輸出優(yōu)化策略;將優(yōu)化策略輸入規(guī)則決策模塊,規(guī)則決策模塊輸出新的模糊規(guī)則集,新的模糊規(guī)則集進一步輸入到策略生成模塊;策略生成模塊、策略細化模塊和規(guī)則決策模塊反復(fù)迭代形成自適應(yīng)增長流程,并最終輸出強化學(xué)習(xí)策略模型和全局最優(yōu)的模糊規(guī)則集。
技術(shù)領(lǐng)域
本發(fā)明主要涉及策略強化學(xué)習(xí)算法,尤其涉及一種將決策樹和模糊規(guī)則結(jié)合的具備自適應(yīng)增長流程的策略強化學(xué)習(xí)方法。
背景技術(shù)
強化學(xué)習(xí)(Reinforcement Learning,RL)是機器學(xué)習(xí)領(lǐng)域的重要分支,通常被認為是實現(xiàn)決策智能的重要手段。強化學(xué)習(xí)通過試錯法(Trial and Error)來指導(dǎo)一個代理在環(huán)境中完成規(guī)定任務(wù),它的基本思想就是通過反復(fù)獎勵或懲罰代理使其逐漸學(xué)會一個最優(yōu)策略[1]。強化學(xué)習(xí)主要解決如何在環(huán)境中做出決策的問題[1],其基本方法是構(gòu)建一個代理(Agent)和環(huán)境(Environment)不斷交互的學(xué)習(xí)模型,在交互的每一個時間步中,代理獲取關(guān)于環(huán)境狀態(tài) (State)的觀察值(Observation),之后對自身要采取的動作(Action)做出決策。動作作用于環(huán)境后,環(huán)境可能會發(fā)生變化。代理在采取動作后會得到環(huán)境的獎勵(Reward)和此刻的狀態(tài)。RL模型通過反復(fù)獎勵代理的行為使RL代理學(xué)會最優(yōu)決策。
基于上述描述,RL模型可以被規(guī)范為一個馬爾科夫決策過程(Markov DecisionProcess, MDP),通常用一個元組表示S,A,P,R,γ[1],其中:
(1)S表示狀態(tài)空間,它描述環(huán)境的所有可觀測的屬性。
(2)A表示動作空間,它描述代理可以在給定環(huán)境下采取的所有合法動作集,動作空間可分為離散動作空間和連續(xù)動作空間。
(3)P:S×A×S→[0,1]是一個狀態(tài)轉(zhuǎn)移的概率分布函數(shù),它描述代理在時刻t下觀測到環(huán)境的狀態(tài)st,執(zhí)行動作at后轉(zhuǎn)移到下一時刻t+1下狀態(tài)st+1的概率。
(4)R:S×A→r是一個獎勵函數(shù),它描述代理在時刻t下觀測到環(huán)境的狀態(tài)st,執(zhí)行動作at后獲得的即時獎勵rt。代理的目標是最大化一個軌跡τ(Trajectories,也叫Episodes或者 Rollouts)的累計獎勵,這個軌跡τ通常是一個有限長度T的狀態(tài)動作對序列,可以表示如下所示:
τ=(s0,a0,s1,a1,...sT,aT)
(5)γ∈[0,1]是一個折扣因子,它描述代理在即時獎勵和長期獎勵之間的偏好,折扣因子越低表示代理越看重即時獎勵,而較高的折扣因子,會讓代理的累計獎勵中更加平衡即時獎勵和長期獎勵之間的權(quán)重。在MDP中,未來每個時間步所獲得的即時獎勵都必須乘以一個折扣因子γ,則從時刻t到時刻T軌跡τ結(jié)束時,累計獎勵定義如下:
折扣因子的使用本質(zhì)上是一種數(shù)學(xué)上的處理技巧,因為在數(shù)學(xué)上一個無窮長度的獎勵累加和可能不會收斂到一個有限值,且在方程中很難處理。但是有折扣因子且處于合理條件下,無窮和會收斂。
強化學(xué)習(xí)通常所述的策略π:S×A→[0,1]是一個狀態(tài)空間到動作空間的概率分布函數(shù),它描述代理在時刻t下觀測到環(huán)境的狀態(tài)st,執(zhí)行動作at的概率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211308748.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 規(guī)則發(fā)現(xiàn)程序、規(guī)則發(fā)現(xiàn)處理和規(guī)則發(fā)現(xiàn)裝置
- 不規(guī)則瓶蓋
- 相關(guān)規(guī)則分析裝置以及相關(guān)規(guī)則分析方法
- 分析規(guī)則調(diào)整裝置、分析規(guī)則調(diào)整系統(tǒng)以及分析規(guī)則調(diào)整方法
- 規(guī)則抽取方法和規(guī)則抽取設(shè)備
- 終端規(guī)則引擎裝置、終端規(guī)則運行方法
- 布(規(guī)則)
- 規(guī)則呈現(xiàn)方法、存儲介質(zhì)和規(guī)則呈現(xiàn)裝置
- 可編寫規(guī)則配置模塊、規(guī)則生成系統(tǒng)、及規(guī)則管理平臺
- 不規(guī)則圍棋





