[發明專利]一種基于PID控制器的電氣控制方法、裝置以及設備在審
| 申請號: | 201910722233.5 | 申請日: | 2019-08-06 |
| 公開(公告)號: | CN110320796A | 公開(公告)日: | 2019-10-11 |
| 發明(設計)人: | 羅鴻軒;金鑫;肖勇;張樂平;胡珊珊 | 申請(專利權)人: | 南方電網科學研究院有限責任公司;中國南方電網有限責任公司 |
| 主分類號: | G05B11/42 | 分類號: | G05B11/42 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王曉坤 |
| 地址: | 510663 廣東省廣州市蘿崗區科*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 參數整定 目標函數 計算機可讀存儲介質 電氣控制 電氣控制系統 強化學習算法 參數優化 控制對象 控制性能 離散化 構建 收斂 代理 學習 | ||
1.一種基于PID控制器的電氣控制方法,其特征在于,包括:
構建PID控制器參數整定問題的目標函數,其中,所述目標函數的待定參數包括N個單維變量;
對所述N個單維變量進行離散化后,根據強化學習算法,采用N個代理分別對所述N個單維變量進行學習,確定所述N個單維變量的目標值;
根據所述N個單維變量的目標值,確定所述目標函數的最優值,完成所述PID控制器的參數整定;
利用完成參數整定后的PID控制器,對電氣控制系統中的控制對象進行控制。
2.如權利要求1所述的方法,其特征在于,所述構建PID控制器參數整定問題的目標函數,其中,所述目標函數的待定參數包括N個單維變量包括:
構建PID控制器參數整定問題的目標函數:
其中,e(t)為所述PID控制器的跟蹤誤差;u(t)為所述PID控制器的輸出;tu為所述電氣控制系統的輸出信號y(t)從穩態值的10%上升到90%所用的上升時間;ey(t)=y(t)-y(t-1)為超調懲罰項,當ey(t)≥0時,ω4=0;當ey(t)<0時,ω4≠0且ω4>>ω1;所述目標函數的待定參數包括第一權重ω1、第二權重ω2、第三權重ω3及第四權重ω4。
3.如權利要求2所述的方法,其特征在于,每個代理對每個單維變量進行學習的步驟包括:
S1:在第i(i=1,2,...,N)個代理在第i(i=1,2,...,N)個單維變量的可采取行為集合中選取當前行為后,確定所述目標函數的當前解;
S2:根據預設獎勵函數的計算規則與所述目標函數的當前解,確定所述當前行為對應的獎勵函數值;
S3:根據所述獎勵函數值更新所述當前行為對應的值函數,以便所述第i個代理根據更新后的值函數選取下一個行為;
S4:對所述當前解的所有維度加入不同擾動;
S5:循環執行所述S1至所述S4,直至循環次數達到預設次數,完成所述第i個單維變量的學習。
4.如權利要求3所述的方法,其特征在于,所述根據預設獎勵函數的計算規則與所述目標函數的當前解,確定所述當前行為對應的獎勵函數值包括:
根據確定所述第i個代理的當前行為第k步的獎勵函數值Rk;其中,Jk為所述目標函數的當前解;Jbest為所述目標函數的初始最優解。
5.如權利要求4所述的方法,其特征在于,所述根據所述獎勵函數值更新所述當前行為對應的值函數包括:
根據Vk+1(i,j)=(1-α)Vk(i,j)+α[Rk+(1-λ2)Lmax(i,j)+λ2Lmin(i,j)]對所述當前行為對應的值函數進行更新;
其中,Vk(i,j)為所述對應的值函數;Ll(i,j)為路徑值,l=1表示向左的路徑,l=2表示向右的路徑;λ1為所述值函數Vk(i,j)的權重;α為學習速率;Lmax(i,j)與Lmin(i,j)分別為最大與最小的兩個路徑值;λ2為所述最大與最小的路徑值的權重,(1-λ2)>λ2。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南方電網科學研究院有限責任公司;中國南方電網有限責任公司,未經南方電網科學研究院有限責任公司;中國南方電網有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910722233.5/1.html,轉載請聲明來源鉆瓜專利網。





