[發明專利]一種污水處理的強化學習控制方法有效
| 申請號: | 201811027864.7 | 申請日: | 2018-09-04 |
| 公開(公告)號: | CN109001981B | 公開(公告)日: | 2021-03-16 |
| 發明(設計)人: | 黃孝平;文芳一;黃文哲 | 申請(專利權)人: | 南寧學院 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 北京慕達星云知識產權代理事務所(特殊普通合伙) 11465 | 代理人: | 崔自京 |
| 地址: | 530200 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 污水處理 強化 學習 控制 方法 | ||
1.一種污水處理的強化學習控制方法,其特征在于:在現場控制器控制的過程中,獲取現場控制器的輸入信號,并將現場控制器的輸出指令和強化學習模型的輸出指令合并為最終輸出指令輸出控制,其中強化學習模型的輸出指令中數值在最終輸出指令總數值的占比為N,N從0逐漸增大至100%;當強化學習模型的輸出指令中數值在最終輸出指令總數值的占比為100%時,切斷現場控制器控制的輸入和輸出;
所述將現場控制器的輸出指令和強化學習模型的輸出指令合并為最終輸出指令輸出,采用如下步驟:
a.獲取現場控制器的輸出指令和強化學習模型的輸出指令;
b.將現場控制器的輸出指令和強化學習模型的輸出指令中的數值取出為現場控制器輸出指令數值和強化學習模型輸出指令數值;
c.將強化學習模型輸出指令數值乘以系數N后更新為新的強化學習模型輸出指令數值;
d.將現場控制器輸出指令數值乘以系數(1-N)后更新為新的現場控制器輸出指令數值;
e.將新的現場控制器輸出指令數值和新的強化學習模型輸出指令數值疊加得到輸出指令疊加值;
f.將輸出指令疊加值封裝為輸出指令發送指令;
所述強化學習模型采用如下方式更新:
a.獲取現場控制器的輸入作為當前現場控制器輸入,將當前現場控制器輸入作為值函數的輸出反向計算值函數的輸入,計算結果作為當前模擬輸入;
b.根據當前模擬輸入和前一現場控制器輸入的誤差值更新值函數,如無前一現場控制器輸入,則將當前模擬輸入直接作為誤差值;
c.將當前現場控制器輸入代入至更新后的值函數中計算輸出指令值;
d.當前現場控制器輸入更新至前一現場控制器輸入,將輸出指令值封裝為輸出指令發送,然后進入下一時序,等待獲取現場控制器的輸入。
2.如權利要求1所述的污水處理的強化學習控制方法,其特征在于:所述N初始為0,每經過M次將現場控制器的輸出指令和強化學習模型的輸出指令合并為最終輸出指令輸出控制的步驟后,N自加0.5%。
3.如權利要求2所述的污水處理的強化學習控制方法,其特征在于:所述M取值由用戶設定,但限定為5~20。
4.如權利要求1所述的污水處理的強化學習控制方法,其特征在于:所述強化學習模型采用帶值函數逼近的TD學習算法。
5.如權利要求1所述的污水處理的強化學習控制方法,其特征在于:所述強化學習模型的值函數為高斯核函數。
6.如權利要求1所述的污水處理的強化學習控制方法,其特征在于:每一時序時長一小時。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南寧學院,未經南寧學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811027864.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:高頻諧振腔調諧方法
- 下一篇:一種非線性系統自適應神經容錯控制方法





