[發明專利]一種污水處理的強化學習控制方法有效
| 申請號: | 201811027864.7 | 申請日: | 2018-09-04 |
| 公開(公告)號: | CN109001981B | 公開(公告)日: | 2021-03-16 |
| 發明(設計)人: | 黃孝平;文芳一;黃文哲 | 申請(專利權)人: | 南寧學院 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 北京慕達星云知識產權代理事務所(特殊普通合伙) 11465 | 代理人: | 崔自京 |
| 地址: | 530200 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 污水處理 強化 學習 控制 方法 | ||
本發明提供了一種污水處理的強化學習控制方法;在現場控制器控制的過程中,獲取現場控制器的輸入信號,并將現場控制器的輸出指令和強化學習模型的輸出指令合并為最終輸出指令輸出控制,其中強化學習模型的輸出指令中數值在最終輸出指令總數值的占比為N,N從0逐漸增大至100%。本發明通過漸進比例提高強化學習模型控制權的方式,能有效在將強化學習模型的數據收集過程、訓練學習過程放在實際場景中,而避免原始數據積累和虛擬環境搭建的過程,從而有效降低企業在應用強化學習的方式進行自動控制時所需的成本,方便用戶完成從傳統控制倒強化學習控制的過程。
技術領域
本發明涉及一種污水處理的強化學習控制方法。
背景技術
目前,強化學習在工業控制中的應用逐漸增多,但一般都限于特定的模型,其主要原因在于強化學習的訓練需要環境支持,而在很多污水處理控制方面,完全模擬真實場景的環境所需要的計算量遠遠大于強化學習模型訓練本身所需要的計算量,導致得不償失,而且就目前的企業技術發展而言,原始的數據積累也很成問題。
發明內容
為解決上述技術問題,本發明提供了一種污水處理的強化學習控制方法,該污水處理的強化學習控制方法通過漸進比例提高強化學習模型控制權的方式,能有效在將強化學習模型的數據收集過程、訓練學習過程放在實際場景中,而避免原始數據積累和虛擬環境搭建的過程。
本發明通過以下技術方案得以實現。
本發明提供的一種污水處理的強化學習控制方法;在現場控制器控制的過程中,獲取現場控制器的輸入信號,并將現場控制器的輸出指令和強化學習模型的輸出指令合并為最終輸出指令輸出控制,其中強化學習模型的輸出指令中數值在最終輸出指令總數值的占比為N,N從0逐漸增大至100%;當強化學習模型的輸出指令中數值在最終輸出指令總數值的占比為100%時,切斷現場控制器控制的輸入和輸出。
所述將現場控制器的輸出指令和強化學習模型的輸出指令合并為最終輸出指令輸出,采用如下步驟:
a.獲取現場控制器的輸出指令和強化學習模型的輸出指令;
b.將現場控制器的輸出指令和強化學習模型的輸出指令中的數值取出為現場控制器輸出指令數值和強化學習模型輸出指令數值;
c.將強化學習模型輸出指令數值乘以系數N后更新為新的強化學習模型輸出指令數值;
d.將現場控制器輸出指令數值乘以系數(1-N)后更新為新的現場控制器輸出指令數值;
e.將新的現場控制器輸出指令數值和新的強化學習模型輸出指令數值疊加得到輸出指令疊加值;
f.將輸出指令疊加值封裝為輸出指令發送指令。。
所述N初始為0,每經過M次將現場控制器的輸出指令和強化學習模型的輸出指令合并為最終輸出指令輸出控制的步驟后,N自加0.5%。
所述M取值由用戶設定,但限定為5~20。
所述強化學習模型采用帶值函數逼近的TD學習算法。
所述強化學習模型的值函數為高斯核函數。
所述強化學習模型采用如下方式更新:
a.獲取現場控制器的輸入作為當前現場控制器輸入,將當前現場控制器輸入作為值函數的輸出反向計算值函數的輸入,計算結果作為當前模擬輸入;
b.根據當前模擬輸入和前一現場控制器輸入的誤差值更新值函數,如無前一現場控制器輸入,則將當前模擬輸入直接作為誤差值;
c.將當前現場控制器輸入代入至更新后的值函數中計算輸出指令值;
d.當前現場控制器輸入更新至前一現場控制器輸入,將輸出指令值封裝為輸出指令發送,然后進入下一時序,等待獲取現場控制器的輸入。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南寧學院,未經南寧學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811027864.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:高頻諧振腔調諧方法
- 下一篇:一種非線性系統自適應神經容錯控制方法





