[發明專利]一種污水處理的強化學習控制方法有效

申請號：	201811027864.7	申請日：	2018-09-04
公開（公告）號：	CN109001981B	公開（公告）日：	2021-03-16
發明（設計）人：	黃孝平;文芳一;黃文哲	申請（專利權）人：	南寧學院
主分類號：	G05B13/04	分類號：	G05B13/04
代理公司：	北京慕達星云知識產權代理事務所(特殊普通合伙) 11465	代理人：	崔自京
地址：	530200 廣西***	國省代碼：	廣西;45
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種污水處理強化學習控制方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種污水處理的強化學習控制方法，其特征在于：在現場控制器控制的過程中，獲取現場控制器的輸入信號，并將現場控制器的輸出指令和強化學習模型的輸出指令合并為最終輸出指令輸出控制，其中強化學習模型的輸出指令中數值在最終輸出指令總數值的占比為N，N從0逐漸增大至100％；當強化學習模型的輸出指令中數值在最終輸出指令總數值的占比為100％時，切斷現場控制器控制的輸入和輸出；

所述將現場控制器的輸出指令和強化學習模型的輸出指令合并為最終輸出指令輸出，采用如下步驟：

a.獲取現場控制器的輸出指令和強化學習模型的輸出指令；

b.將現場控制器的輸出指令和強化學習模型的輸出指令中的數值取出為現場控制器輸出指令數值和強化學習模型輸出指令數值；

c.將強化學習模型輸出指令數值乘以系數N后更新為新的強化學習模型輸出指令數值；

d.將現場控制器輸出指令數值乘以系數(1-N)后更新為新的現場控制器輸出指令數值；

e.將新的現場控制器輸出指令數值和新的強化學習模型輸出指令數值疊加得到輸出指令疊加值；

f.將輸出指令疊加值封裝為輸出指令發送指令；

所述強化學習模型采用如下方式更新：

a.獲取現場控制器的輸入作為當前現場控制器輸入，將當前現場控制器輸入作為值函數的輸出反向計算值函數的輸入，計算結果作為當前模擬輸入；

b.根據當前模擬輸入和前一現場控制器輸入的誤差值更新值函數，如無前一現場控制器輸入，則將當前模擬輸入直接作為誤差值；

c.將當前現場控制器輸入代入至更新后的值函數中計算輸出指令值；

d.當前現場控制器輸入更新至前一現場控制器輸入，將輸出指令值封裝為輸出指令發送，然后進入下一時序，等待獲取現場控制器的輸入。