[發明專利]一種基于執行-評判結構的溶解氧濃度智能優化控制方法有效
| 申請號: | 202010855574.2 | 申請日: | 2020-08-21 |
| 公開(公告)號: | CN112147885B | 公開(公告)日: | 2022-06-07 |
| 發明(設計)人: | 喬俊飛;楊茹越;王鼎 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G05B13/02 | 分類號: | G05B13/02;G05D11/13 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 執行 評判 結構 溶解氧 濃度 智能 優化 控制 方法 | ||
1.一種基于執行-評判結構的溶解氧濃度智能優化控制方法,其特征在于,包括如下步驟:
(1)最優控制問題分析
污水處理過程看作一個離散時間的非線性非仿射系統來描述:
xt+1=F(xt,ut),t=0,1,2,…#(1)
其中t是系統的離散時刻,t可取任意大于0的數;是系統狀態,表示t時刻污水處理系統的第五分區溶解氧濃度SDO,5與第五分區溶解氧濃度目標設定值之間的差值;ut是系統t時刻的控制輸入;并且ut=ΔKLa5,t=KLa5,t-KLa5,t-1,其中KLa5,t表示t時刻污水處理系統第五分區的氧傳遞系數,KLa5,t-1表示t時刻的上一時刻t-1時刻的污水處理系統第五分區的氧傳遞系數,ΔKLa5,t表示t時刻氧傳遞系數的增量;F(·)是代表了系統動態的未知非線性函數;
系統在t時刻的性能指標J(xt,ut)是效用函數U(xt,ut)從t時刻到∞時刻的累積,表示如下:
其中,xt和ut分別表示t時刻系統狀態和控制輸入;t時刻的效用函數U(xt,ut)等于xt的轉置乘以半正定矩陣R再乘以xt加xt+1的轉置乘以半正定矩陣K再乘以xt+1,表示為本文中,符號上標T表示轉置;該算法的目的是,在t時刻通過控制序列來實現最小化系統性能指標J(xt,ut)的目標;以控制序列ut為變量,最小化的系統性能指標得到最優系統性能指標J*(xt,ut);在本文中,最小化系統性能指標使系統跟蹤目標設定值的誤差降到最小,從而實現控制問題的最優解;
最優系統性能指標表示為:
最優系統性能指標函數J*(xt,ut)由公式(2)和公式(3)進一步推導得到:
根據動態規劃中的最優性原理,通過公式(4),系統t時刻的最優控制輸入表示為:
(2)基于執行-評判結構的智能優化控制器設計
執行-評判結構由執行器(Actor)和評判器(Critic)組成,其中執行器負責生成依據系統狀態給出控制輸入的控制策略,評判器依據系統狀態和控制輸入給出近似系統性能指標;通過智能優化算法,使評判器生成的近似系統性能指標不斷接近系統實際的性能指標J(·);通過評判器對執行器生成的可用控制策略進行評判,使執行器生成的控制策略通過梯度下降不斷逼近最優策略;
執行器生成的控制策略表示為μ(·),執行器依據狀態xt生成控制輸入μ(xt);定義系統的輸入-狀態值函數,即Q函數;Q函數是系統在t時刻執行控制輸入μ(xt)累積效用函數得到的,Q函數表示為:
由公式(6),推導得到:
Q(xt,μ(xt))=U(xt,μ(xt))+Q(xt+1,μ(xt+1))#(7)
t時刻最優Q函數表示為Q*(xt,μ(xt));由公式(4),進一步得到:
μ*(xt)是最優控制輸入,表示為:
該過程所采用的具體算法步驟如下:
①記i為算法迭代次數;第i次迭代中使用的控制策略表示為μi(·),t時刻第i次迭代的初始控制輸入表示為μi(xt);
②在t時刻第i次迭代中構建Q函數:
Qi(xt,μi(xt))=U(xt,μi(xt))+Qi(xt+1,μi(xt+1))#(10)
③通過梯度下降的方式更新控制策略:
在公式(11)中,β是學習率,β∈(0,1);
④算法迭代次數加1;若||Qi(xt,μi(xt))-Qi(xt+1,μi(xt+1))||≥γ,則返回步驟②,其中γ是迭代停止條件,γ∈(0,0.1);若||Qi(xt,μi(xt))-Qi(xt+1,μi(xt+1))||≤γ,算法停止,得到最優控制輸入μ*(xt)=μi+1(xt);
(3)執行-評判結構智能優化控制方法的神經網絡實現
執行-評判結構智能優化算法通過四個三層神經網絡實現,分別是執行網絡,目標執行網絡,評判網絡和目標評判網絡;其中,執行網絡的輸入是系統狀態,執行網絡的輸出是控制策略μ(·)的近似,表示為評判網絡的輸入是系統狀態與控制輸入組成的向量,評判網絡的輸出是對Q函數的近似,表示為通過對系統在線運行數據的收集,不借助系統模型更新評判網絡和執行網絡的參數;執行網絡的參數通過參數傳遞規則傳給目標執行網絡,評判網絡的參數通過參數傳遞規則傳給目標評判網絡;執行網絡用于更新自身與目標執行網絡的參數,目標執行網絡用于給出系統控制輸入;目標評判網絡與評判網絡結合使評判網絡的輸出逼近Q函數,同時對執行網絡的控制效果進行評判以更新執行網絡的參數;
1)評判網絡設計:
在公式(12)中,評判網絡的輸入值是由t時刻系統狀態xt和控制輸入組成的,其中是目標執行網絡依據狀態xt的輸出,評判網絡的輸出值是在狀態xt對Q函數的近似;wc,h是評判網絡輸入層至隱含層的網絡權值,是評判網絡第i次迭代中隱含層至輸出層的網絡權值;其中,wc,h在評判網絡初始化時在(-1,1)之間隨機選取后保持不變,在評判網絡初始化時在(-1,1)之間隨機選取后隨著算法的迭代而更新;評判網絡的激活函數σ(·)選用雙曲正切函數;
2)執行網絡設計:
在公式(13)中,執行網絡的輸入值是t時刻系統狀態xt,執行網絡的輸出值是由控制策略依據狀態xt給出的控制輸入估計值wa,h是執行網絡輸入層至隱含層的網絡權值,是執行網絡在第i次迭代中隱含層至輸出層的網絡權值;wa,h在執行網絡初始化時在(-1,1)之間隨機選取后保持不變,在執行網絡初始化時在(-1,1)之間隨機選取后基于評判網絡的評判而更新;執行網絡的激活函數σ(·)選用雙曲正切函數;
3)目標評判網絡與目標執行網絡的設計:
在初始化時,目標執行網絡和執行網絡的結構和參數相同,目標評判網絡和評判網絡的結構和參數相同;w′a,h是目標執行網絡輸入層至隱含層的網絡權值,是目標執行網絡在第i次迭代中隱含層至輸出層的網絡權值;w′a,h在目標執行網絡初始化時與執行網絡傳的wa,h相同,并保持不變;在目標執行網絡初始化時與執行網絡的相同,之后隨執行網絡迭代而更新;目標執行網絡的輸入值是t+1時刻系統狀態xt+1,目標執行網絡的輸出值是由目標控制策略依據狀態xt+1給出的該網絡如公式(14)所示;目標執行網絡的激活函數σ(·)選用雙曲正切函數;為方便起見,目標執行網絡在第i次迭代中依據狀態xt+1得到的網絡輸出表示為即同理可得,目標執行網絡在第i次迭代中依據狀態xt得到的網絡輸出表示為并且
w′c,h是目標評判網絡輸入層至隱含層的網絡權值,是目標評判網絡第i次迭代中隱含層至輸出層的網絡權值;w′c,h在目標評判網絡初始化時與評判網絡的wc,h相同,并保持不變;在目標評判網絡初始化時與評判網絡的相同,之后隨評判網絡迭代而更新;目標評判網絡的輸入值是目標評判網絡的輸出值是在狀態xt+1對Q函數的近似,該網絡如公式(15)所示;目標評判網絡的激活函數σ(·)選用雙曲正切函數;
4)執行網絡與評判網絡的更新:
處于狀態xt的系統施加控制輸入dt后驅動系統轉移到狀態xt+1,同時得到系統t時刻的效用為方便書寫取將數據組收集到數據集SM中,其中M表示數據集SM的最大大?。浑S機從SM中隨機選擇N個數據組組成更新序列SN,N是整數;控制器采樣間隔是τ,M=3000·N;SM隨著系統狀態的更新而更新,并對數據的更新采取先入后出的原則;
受公式(7)啟發,評判網絡與目標評判網絡之間的關系如下:
評判網絡在第i次迭代中的誤差定義為根據公式(16),將輔助誤差表示為:
評判網絡的學習率為βc,βc∈(0,1),評判網絡隱含層到輸出層的權值按照如下公式更新:
執行網絡的誤差定義為輔助誤差表示為:
執行網絡的學習率為βa,βa∈(0,1),執行網絡隱含層到輸出層的權值按照如下公式更新:
該過程所采用的具體算法步驟如下:
①隨機初始化評判網絡和執行網絡的所有權值參數;將執行網絡參數賦給目標執行網絡,將評判網絡參數賦給目標評判網絡;初始化系統的迭代次數是i,系統時刻是t;系統容許誤差是∈,∈∈(0,0.1);初始化數據集SM為空集;定義系統近期效用和函數UB,計算在最近的B時刻內系統效用函數的和來判斷系統是否達到穩定狀態,B是整數,B∈(0,100);UB的公式表示如下:
②取當前系統時刻為t時刻,迭代次數為i;目標執行網絡依據系統狀態xt給出t時刻的控制輸入系統被控制輸入驅動到狀態xt+1;計算系統在狀態xt的效用rt,將系統返回的數據組依據先入后出的規則存儲到數據集SM中;當SM中數據組個數大于B時,計算UB;若UR≤∈,跳轉到步驟⑥;
③依次選擇SN中的數據組,由公式(17)逐個計算各個數據組的評判網絡誤差;將SN中所有數據組的評判網絡誤差的和記為評判網絡隱含層到輸出層的權值按如下方式更新:
④依據公式(19)計算執行網絡誤差并按公式(20)更新執行網絡隱含層到輸出層的權值;
⑤取ζ∈(0,1),更新目標評判網絡隱含層到輸出層的權值和目標執行網絡隱含層到輸出層的權值:
⑥在控制輸入的作用下系統狀態從xt轉移到xt+1,系統迭代次數加1,返回步驟②。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010855574.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于慣量阻尼參數優化匹配的實驗系統及方法
- 下一篇:一種熱成型預開發工藝





