[發明專利]一種并行優化的強化學習自適應PID控制方法有效
| 申請號: | 201711325553.4 | 申請日: | 2017-12-13 |
| 公開(公告)號: | CN108008627B | 公開(公告)日: | 2022-10-28 |
| 發明(設計)人: | 孫歧峰;任輝;段友祥;李洪強 | 申請(專利權)人: | 中國石油大學(華東) |
| 主分類號: | G05B11/42 | 分類號: | G05B11/42;G05B13/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 266580 山東省青島市*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 并行 優化 強化 學習 自適應 pid 控制 方法 | ||
1.一種并行優化的強化學習自適應PID控制方法,其特征在于包括以下步驟:
步驟S1:運用MATLAB軟件,定義一個被控制系統的任意階連續傳遞函數,通過零階保持器法將其離散化,得到一個自定義時間間隔的離散化傳遞函數,初始化控制器參數和M個控制線程進行并行學習,其中參數主要包括BP神經網絡參數和PID控制環境參數,每一個線程為一個獨立的控制Agent;
步驟S2:初始化BP神經網權值參數和PID控制器的控制對象后,定義一個離散的輸入信號RIN,將離散后的輸入信號按照定義的時間間隔依次傳入離散化后的傳遞函數,計算出傳遞函數的輸出值,并把輸入與輸出信號的差值作為A3C自適應PID控制算法的輸入向量x(t);
步驟S3:把步驟S2中得到的輸入向量x(t)傳入到搭建好的A3C自適應PID控制系統進行迭代訓練,迭代N次后得到訓練好的模型;
步驟S31:計算當前誤差e(t)、一次誤差Δe(t)、二次誤差Δe2(t)作為算法的輸入向量x(t)=[e(t),Δe(t),Δ2e(t)]T,并用sigmod函數對其歸一化;
步驟S32:將輸入向量傳遞給每一個線程的Actor網絡,并得到PID新的參數,Actor網絡并不是直接輸出PID的參數值而是輸出PID三個參數的高斯分布的均值和方差,通過三個參數的高斯分布估計出三個參數值,o=1,2,3時,輸出層輸出的是PID參數的均值,o=4,5,6時,輸出的是PID參數的方差,其中Actor網絡是一個BP神經網絡共3層:第1層為輸入層,第2層為隱藏層的輸入
隱藏層的輸出hok(t)=min(max(hik(t),0),6)k=1,2,3…20,
第3層為輸出層,輸出層的輸入
輸出層的輸出
步驟S33:新的PID參數賦給控制器,得到控制輸出,計算出控制誤差,根據環境獎勵函數R(t)計算出獎勵值,R(t)=α1r1(t)+α2r2(t),到下一個狀態的向量值x′(t);
步驟S34:將獎勵函數R(t),當前狀態向量x(t),下一個狀態向量x′(t)傳遞給Critic網絡,Critic網絡結構與Actor網絡結構類似,區別在于輸出結點只有一個,Critic網絡主要輸出狀態值并計算TD誤差,δTD=r(t)+γV(St+1,Wv′)-V(St,Wv′);
步驟S35:在計算出TD誤差后,A3C結構中的每個Actor-Critic網絡并不會直接更新自身的網絡權值,而是用自身的梯度去更新中央大腦(Global-net)存儲的Actor-Critic網絡參數,更新方式為Wat+1=Wat+αadWat,Wvt+1=Wvt+αcdWvt,其中,t和t+1代表不同時刻,Wa為中央大腦存儲的Actor網絡權值,
W′a為每個AC結構的Actor網絡的權值,Wv為中央大腦存儲的Critic網絡權值,W′v表示每個AC結構的Critic網絡權值,αa為Actor的學習率,αc為Critic的學習率,在更新之后中央大腦會傳遞給每個AC結構一個最新參數;
步驟S36:以上為完成一次訓練過程,循環迭代N次,退出訓練,保存模型;
步驟S4:使用訓練好的模型進行控制測試,記錄下輸入信號,輸出信號,PID參數的變化值;
步驟S5:使用Matlab可視化步驟S4得到的實驗數據其中包括控制器的輸入信號,輸出信號,PID參數的變化值,并與模糊自適應PID控制,AC-PID自適應PID控制進行控制效果對比。
2.根據權利要求1 所述的一種并行優化的強化學習自適應PID控制方法,其特征在于步驟S4包括以下步驟:
步驟S41:使用步驟S1定義好的輸入信號,傳遞到訓練好的獎勵函數最高的線程的控制模型;
步驟S42:S41后計算出當前、一次、二次誤差作為輸入向量,輸入到選擇好的控制模型,與訓練過程不同的是,只需要Actor網絡輸出的PID參數調整量,并把調整后的PID參數傳遞給控制器,得到控制器的輸出;
步驟S43:保存步驟S42得到的輸入信號,輸出信號,以及PID參數變化值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國石油大學(華東),未經中國石油大學(華東)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711325553.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種雙作用空間扭曲面密封滑板活塞泵
- 下一篇:一種雙層潔面乳及其制備方法





