[發明專利]一種基于強化學習的液位容錯控制方法在審
| 申請號: | 202010947314.8 | 申請日: | 2020-09-10 |
| 公開(公告)號: | CN112180996A | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 張大鵬 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G05D9/12 | 分類號: | G05D9/12 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 杜文茹 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 容錯 控制 方法 | ||
1.一種基于強化學習的液位容錯控制系統,其特征在于,是用于多容水箱系統的容錯控制,包括:用于分別采集每個水箱在不同時刻的液位信息的信息采集單元(1),用于根據接收信息采集單元(1)輸出的k時刻所有水箱的液位信息和變頻器的控制信息來預測k+1時刻所有水箱的液位信息的無故障模型(3),用于根據分別接收信息采集單元(1)輸出的k時刻和k+1時刻所有水箱的液位信息,分別估計出k時刻和k+1時刻所應的控制變頻器的控制變量的總體價值V(k)和V(k+1)的評價網絡(2),用于根據分別接收信息采集單元(1)輸出的k+1時刻所有水箱的液位信息、以及無故障模型(3)輸出的預測k+1時刻所有水箱的液位信息評估出階段價值R(k)的階段價值評估單元(4),用于根據分別接收的階段價值評估單元(4)輸出的階段價值以及評價網絡(2)輸出的總體價值V(k)和V(k+1)輸出用于權值更新的適應度函數的偏差估計單元(5),用于根據接收偏差估計單元(5)輸出的適應度函數對評價網絡(2)進行權值更新的權值更新單元(6),所述評價網絡(2)根據接收權值更新單元(6)輸出的所有更新后的權值,輸出與變頻器的控制量u(k)有關的權值,用于根據接收評價網絡(2)輸出的與變頻器的控制量u(k)有關的權值以及信息采集單元(1)輸出的k時刻所有水箱的液位信息進行迭代更新得到最優控制變量對多容水箱系統的變頻器進行控制的動作網絡(7)。
2.根據權利要求1所述的一種基于強化學習的液位容錯控制方法,其特征在于,所述的信息采集單元(1)輸出的k時刻所有水箱的液位信息表示為x(k),k+1時刻所有水箱的液位信息表示為x(k+1)。
3.根據權利要求1所述的一種基于強化學習的液位容錯控制方法,其特征在于,所述的無故障模型(3)表示如下:
…
式中,x1,x2,x3和xn分別為水箱T1、水箱T2、水箱T3和水箱Tn的液位信息,S1,S2,S3,和Sn分別是水箱T1、水箱T2、水箱T3和水箱Tn的截面積,g是重力加速度,參數參數參數參數參數式中,R12是水箱1和水箱2之間的流動阻力,R32是水箱3和水箱2之間的流動阻力,R43是水箱4和水箱3之間的流動阻力,Rn-1,n是水箱n-1和水箱n之間的流動阻力,Rn為水箱Tn的排水阻力,ρ為液體密度;Q1和Q2是潛水泵1和潛水泵2的流量。
4.根據權利要求1所述的一種基于強化學習的液位容錯控制方法,其特征在于,所述的評價網絡(2)包括依次全連接的輸入層、隱含層和輸出層,其中,所述的輸入層具有n+2個神經元,所述的隱含層具有2n個神經元,輸出層具有1個神經元。
5.根據權利要求1所述的一種基于強化學習的液位容錯控制方法,其特征在于,所述的階段價值評估單元(4)是由如下公式構成:
式中,R(k)為階段價值;x(k+1)為k+1時刻所有水箱的液位信息;xr(k+1)為無故障模型(3)輸出的預測k+1時刻所有水箱的液位信息。
6.根據權利要求1所述的一種基于強化學習的液位容錯控制方法,其特征在于,所述的偏差估計單元(5)是由如下公式構成:
TE=V(k)-R(k)+γV(k+1)
式中,TE為偏差;V(k)和V(k+1)分別為k時刻和k+1時刻所應的控制變頻器的控制變量的總體價值;R(k)為階段價值;γ為折扣因子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010947314.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種磁粉標準試片的測量方法
- 下一篇:一種室外機柜通用網管配置方法及系統





