[發明專利]一種基于魯棒強化學習的排水系統控制方法有效
| 申請號: | 202110335721.8 | 申請日: | 2021-03-29 |
| 公開(公告)號: | CN113050430B | 公開(公告)日: | 2023-05-02 |
| 發明(設計)人: | 汪啟杭;金韜;劉偉明;馮鵬宇 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 劉靜 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 排水系統 控制 方法 | ||
1.一種基于魯棒強化學習的排水系統控制方法,其特征在于,包括以下步驟:
(1)對排水系統進行建模,劃分子匯水區域,定義關鍵對象,具體為:
(1.1)將待研究區域劃分成大小不同,形狀各異的若干子匯水區域,定義每個區域的雨量計、出水口、寬度、坡度、滲透率、采用的滲透方程和土地類型;具體為:
(1.1.1)定義雨量計,雨量計是一個提供降雨數據的對象,它的數據是一個時間序列;
(1.1.2)定義出水口,出水口為接受子匯水區域排水的節點;
(1.1.3)定義子匯水區域的寬度,即薄層徑流的地表漫流特征寬度,單位為米或英尺;
(1.1.4)定義不滲透百分比和不滲透地表面積百分比;
(1.1.5)定義子匯水區域滲透方程,包括Horton滲透方程、Green-Ampt滲透方程和SCS曲線滲透方程;
(1.1.6)定義土地類型,即土地開發活動的類型或者子匯水區域的地表特征
(1.2)定義排水系統模型中的關鍵對象,所述關鍵對象包括蓄水單元、管道、節點、調節閥和排水口;建模所需參數為:
(1.2.1)蓄水單元的建模,模型中有若干蓄水單元,需要定義其內底標高、最大高度、表面積和深度方程,
(1.2.2)管道的建模,管道是連接不同對象的管線,它的參數有進水節點、出水節點、管道截面形狀、長度、直徑和曼寧粗糙系數;
(1.2.3)節點的建模,節點是不同管道聯結的交合處,需要指定其內底標高、最大深度和初始深度;
(1.2.4)調節閥的建模,調節閥是一個能夠通過調節其開度來控制流量大小的節點,它的參數包括截面形狀、流量系數、開啟/關閉所需時間、是否具有防止水倒灌功能的拍門;
(1.2.5)排水口的建模,需要定義其內底標高;
(1.3)將降雨量數據集分割為訓練集和測試集,將數據集輸入排水系統模型的雨量計中;將降雨量數據集按照3:1的比例分割為訓練集和測試集,降雨量數據集來自于氣象資料,通常按照月份進行分割,每個數據文件的降雨量按照一定時間間隔采樣一次來進行統計,并且每個數據文件里包含某個月的降雨量統計,最后將數據文件導入排水系統模型的雨量計中,生成新的模型文件;
完成排水系統模型的建模后,運行、測試模型的連續性誤差,使誤差最低;
(2)構建強化學習環境,強化學習環境的作用是提供一個與智能體進行交互的接口,通過接口實現對排水系統狀態參數的跟蹤和控制,實現方法為利用SWMM的計算引擎代碼進行計算和控制,并調用SWMM的庫函數提取運算結果;具體步驟為;
(2.1)定義環境的狀態空間S和動作空間A;
(2.2)利用強化學習常用三方庫gym進行環境的配置;
(2.3)定義Node對象和Link對象,定義待控制對象,讀取其屬性信息;
(2.4)定義交互函數,它的功能為提供智能體與環境的交互接口,每輸入一個動作值,環境狀態值發生改變,然后將更新后的狀態值和損失值反饋給智能體;
(2.5)定義損失函數,它的功能為根據狀態空間中的參數計算損失值,然后再通過交互函數反饋給智能體;
(2.6)定義終止函數,排水系統完成運行后將調用此函數,退出強化學習環境;
(3)通過魯棒強化學習算法實現排水系統的控制,包括:
(3.1)基于馬爾科夫決策過程(MDP)構建強化學習的基本理論框架;具體為:
(3.1.1)定義全局損失值;假設排水系統的每步狀態表示為S0,S1,S2...,智能體每步動作表示為A1,A2,A3...,每步損失值表示為R1,R2,R3...,則智能體與排水系統的交互軌跡由下述軌跡來描述:
S0,A0,R1,S1,A1,R2,S2,A2,R3,...
為了區分不同時刻智能體所獲損失值,應將不同時刻損失值乘上折扣系數γ(0≤γ1),則在t時刻后,該軌跡線中智能體所獲全局損失Gt定義為:
(3.1.2)智能體在每一條交互軌跡線中所能獲得的總損失是跟它所采取的策略函數π(a|s)是相關的,因此通過最小化交互軌跡的總損失和即可獲得最優策略;在給定當前狀態St=s以及策略函數π的情況下,由于策略函數π是一個隨機變量函數,那么總損失同為隨機變量,將總損失的期望值定義為價值函數,記為Vπ(s),其定義式如下:
類似地,在策略π下,狀態s時所采取的動作a的價值函數記為Qπ,稱為動作-價值函數,其定義式如下:
(3.1.3)通過對動作-價值函數的最小化能夠獲得最優策略:
(3.2)基于條件風險價值函數(CVaR)改進MDP過程,包括以下子步驟:
(3.2.1)在MDP過程中引入風險價值函數(VaR)和條件風險價值函數(CVaR),得到帶約束的MDP過程;定義一個隨機變量X,在本算法框架中,它代表的是智能體交互過程的全局損失,X的累積概率密度函數為F(x)=P{X≤x},則風險價值函數的定義式如下:
VaRα(X)=min{x|F(x)≥1-α}
它的含義是隨機變量X的分布概率密度函數的1-α分位點,表示在置信度水平α下,隨機變量X的樣本中,可能出現的最大損失值,將VaRα(X)記為v;
條件風險價值函數指的是隨機變量X中超過風險價值v的部分樣本的期望值,它量化了X中高于風險價值v的部分樣本的數值特征,其定義式如下:
CVaRα(X,v)=E[X|X>v]
進一步地,展開為:
其中,(x)+=max(x,0),表示變量x中大于0的部分;
(3.2.2)帶約束的MDP采取如下的優化方式:
A.對MDP過程進行約束,定義策略函數π(a|s,θ),a為當前動作,s為當前狀態,θ為分布參數,由θ來確定策略函數π;定義損失函數Gθ(s,π(a|s,θ)),損失函數表示在當前狀態s和當前策略π下,智能體所獲全局損失值;假設損失函數的約束上界為b,記CVaR函數為Cα(X,v),則帶約束條件的MDP目標函數如下:
min?Vπ(s)subject?to?Cα(Gθ(s,π(a|s,θ)),v)≤b
其中Vπ(s)為動作-價值函數,即損失函數的數學期望;
B.對于帶約束的最大化或者最小化優化問題,采用拉格朗日乘數法對其進行處理,則目標函數轉化為:
C.對拉格朗日函數中的三參數求梯度可得到:
D.進一步地,代入條件風險價值函數表達式后展開可得:
(3.3)基于帶約束條件的MDP框架的魯棒強化學習,用神經網絡代替價值函數和策略函數,具體步驟如下:
A.在排水系統模型中,需要控制的狀態變量均為連續值,動作變量也是連續值,因此選取DDPG算法作為算法框架,它由四個網絡組成,分別是當前策略網絡、當前價值網絡、目標策略網絡、目標價值網絡,四網絡參數依次為θμ、θQ、θμ′和θQ′;
B.當前策略網絡采用策略梯度方法,具體為對當前價值網絡輸出值的數學期望求解梯度,假設優化目標函數為J(θμ),那么它的梯度如下式:
上式中,a=π(s,θμ)指的是當前策略網絡輸出的動作值,θμ為其網絡參數;G(s,a|θQ)指的是當前價值網絡輸出值,它相當于全局損失函數,θQ為其網絡參數;
C.在此基礎上,進一步獲得其網絡參數更新式:
其中表示當前網絡參數,表示更新后網絡參數,δ∈(0,1)是學習率;
D.對于帶約束的MDP過程,則當前策略網絡的優化方式變更為:
E.當前價值網絡采用的是TD-Error方法優化,目標函數定義為:
式中,γ為折扣系數,r為單步損失值,G(s,a|θQ′)為目標價值網絡輸出,與當前價值網絡不同的是,它的參數是θQ′,并且它的輸入策略a=π(s|θμ′)來自目標策略網絡,θμ′為目標策略網絡參數;
F.當前價值網絡的損失函數即為當前價值和目標價值的均方差:
G.對于目標策略網絡和目標價值網絡,采用從當前網絡復制參數的方法來更新;
θQ′=τθQ+(1-τ)θQ′
θμ′=τθμ+(1-τ)θμ′
式中,τ∈(0,1)是更新系數,表示每次參數更新的步長;
(3.4)在訓練集上對魯棒強化學習模型進行訓練,設計神經網絡結構,具體為:
(3.4.1)神經網絡設計為全連接層,激活函數為Relu,添加Batch?Normalization層,神經網絡的超參數由調參過程獲得;
(3.4.2)神經網絡的更新方式通過(3.3)中數學公式來更新四個網絡參數;
(3.4.3)設定最小損失閾值,當神經網絡的損失低于閾值,則認為網絡已經訓練好,退出訓練進程,并保存權重矩陣到本地;
(3.5)在測試集上對魯棒強化學習模型進行測試并驗證模型效果,具體為:
(3.5.1)統計蓄水單元和節點的水位,看是否有超出設定值的情況出現;
(3.5.2)統計管段的流量,看是否超出最大流量設定值;
(3.5.3)統計節點和蓄水單元的總溢流值以及溢流頻次,溢流值即該節點水位過高以至于漫出地表的水量;總溢流值以及溢流頻次能夠直觀地表征排水設施的控制效果;
(3.5.4)通過統計結果,以及對比已有控制算法,驗證魯棒強化學習算法的控制效果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110335721.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種移動式碎石篩分設備
- 下一篇:時鐘數據恢復方法及裝置





