[發明專利]一種基于強化學習的電能計量檢定環境控制方法和系統在審
| 申請號: | 202110421914.5 | 申請日: | 2021-04-19 |
| 公開(公告)號: | CN113126679A | 公開(公告)日: | 2021-07-16 |
| 發明(設計)人: | 招景明;趙炳輝;黃友朋;左右宇;姚智聰;彭龍;李嘉杰 | 申請(專利權)人: | 廣東電網有限責任公司計量中心 |
| 主分類號: | G05D27/02 | 分類號: | G05D27/02;G05B13/02;G01R35/04 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 陳旭紅;呂金金 |
| 地址: | 510000 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 電能 計量 檢定 環境 控制 方法 系統 | ||
1.一種基于強化學習的電能計量檢定環境控制方法,其特征在于,包括:
S101、設置期望的環境參數,其中,所述環境參數包括:溫度、濕度和氣壓;
S102、根據所述期望的環境參數,通過環境參數控制器的調節參數,控制環境調節設備改變環境參數,其中,所述調節參數包括:溫度調節設備的調節動作、濕度調節設備的調節動作和氣壓調節設備的調節動作;
S103、獲取實時環境參數,并根據預設的強化學習模型,獲取下一步的調節參數,重復執行步驟S102-S103,直到所述實時環境參數等于期望的環境參數。
2.根據權利要求1所述的基于強化學習的電能計量檢定環境控制方法,其特征在于,所述預設的強化學習模型,包括:
通過設置學習速率和折扣因子,構建強化學習模型,公式如下:
Q(S,A)←(1-α)*Q(S,A)+α*[R+γ*maxaQ(S',a)]
其中,Q(S,A)表示Q表中當前狀態S和對應的動作A,α是學習速率,γ表示折扣因子,S'表示動作A執行完成后,系統環境到達的狀態,Q(S',a)是表示在S'狀態在所有動作下Q值的集合,maxaQ(S',a)表示在狀態S'下最大的Q值,R是獎勵值。
3.根據權利要求2所述的基于強化學習的電能計量檢定環境控制方法,其特征在于,所述獎勵值,具體采用如下公式:
其中,WT,WH,WP,表示環境參數權重,范圍都是[0,1],且滿足sum(WT,WH,WP)=1,N,K,M分別表示溫度傳感器,濕度傳感器和壓力傳感器的個數,ti表示第i個溫度傳感器的溫度值,i表示第i個濕度傳感器的濕度值,pi表示第i個壓力傳感器的氣壓值,Tsp,Hsp,Psp分別表示系統設定的溫度,濕度,氣壓值,ε是一個余項,防止除0操作。
4.根據權利要求1所述的基于強化學習的電能計量檢定環境控制方法,其特征在于,所述獲取實時環境參數,包括:
通過傳感器獲取實時溫度數據、濕度數據以及氣壓數據,將所述實時溫度數據、濕度數據以及氣壓數據組成環境參數,其中,環境參數采用D={T,H,P}表示,其中T={t0,t1,...tn}表示N個溫度采樣點采樣的環境溫度,其中tn表示第n個傳感器,H={h0,h1,...hk}表示k個濕度采樣點采樣的環境濕度值,其中hk表示第k個傳感器,P={p0,p1,...pm}表示m個氣壓采樣點的環境氣壓,其中pm表示第m個傳感器;則環境當前的狀態表示為為各傳感器采樣值的均值。
5.一種基于強化學習的電能計量檢定環境控制系統,其特征在于,包括:設置模塊、調節模塊和控制模塊,其中,
所述設置模塊,用于設置期望的環境參數、學習速率和折扣因子,其中,所述環境參數包括:溫度、濕度和氣壓;
所述調節模塊,用于根據所述期望的環境參數,通過環境參數控制器的調節參數,控制環境調節設備改變環境參數,其中,所述調節參數包括:溫度調節設備的調節動作、濕度調節設備的調節動作和氣壓調節設備的調節動作;
控制模塊,用于獲取實時環境參數,并根據預設的強化學習模型,獲取下一步的調節參數,重復執行調用調節模塊和控制模塊,直到所述實時環境參數等于期望的環境參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東電網有限責任公司計量中心,未經廣東電網有限責任公司計量中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110421914.5/1.html,轉載請聲明來源鉆瓜專利網。





