[發明專利]一種基于A3C-PID的自適應軌壓調節方法及存儲介質在審
| 申請號: | 202010720601.5 | 申請日: | 2020-07-24 |
| 公開(公告)號: | CN111856920A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 張朦朦;惠小亮;李鵬豪;張永林;楊倩 | 申請(專利權)人: | 重慶紅江機械有限責任公司 |
| 主分類號: | G05B11/42 | 分類號: | G05B11/42;G05B13/04;G05B13/02 |
| 代理公司: | 重慶華科專利事務所 50123 | 代理人: | 康海燕 |
| 地址: | 402162 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 a3c pid 自適應 調節 方法 存儲 介質 | ||
1.一種基于A3C-PID的自適應軌壓調節方法,其特征在于,包括如下步驟:
步驟1,建立第m個智能體agent的增量式PID軌壓控制系統結構,其計算公式表示為:
ΔUm(t)=Kp(t)(em(t)-em(t-1))+KI(t)em(t-1)+KD(t)(em(t)-2*em(t-1)+em(t-2)) (1)
Um(t)=Um(t-1)+ΔUm(t) (2)
Em(t)=em(t)=R(t)-Y(t) (3)
ΔEm(t)=em(t)-em(t-1) (4)
Δ2Em(t)=em(t)-2*em(t-1)+em(t-2) (5)
式中:
取m∈[1,n],n表示智能體agent總數,m代表第m個智能體agent;
KP、KI、KD——被狀態向量映射成PID控制器的三個參數值;
ΔUm(t)——本次控制量增量;Em(t)=em(t)——本次軌壓偏差;
em(t-1)——上一次的軌壓偏差;em(t-2)——上兩次的軌壓偏差;
Um(t)——本次的控制量;Um(t-1)——上一次的控制量;
R(t)——目標軌壓值;Y(t)——本次實測的軌壓值;
ΔEm(t)——一次軌壓的偏差變化率;Δ2Em(t)——二次軌壓的偏差變化率;
步驟2,通過A3C算法使得中央大腦global與n個智能體agent各自維持Actor網絡結構與Critic網絡結構,所述智能體Agent通過Actor網絡結構與Critic網絡結構中獲取多個回合獲得的經驗,并將所述經驗上傳到中央大腦網絡Global-net中,所述中央大腦global再將匯集到的智能體agent的經驗下發至每個智能體agent,進而將軌壓控制任務分配至每個智能體agent中進行訓練,其中,所述經驗包括actor網絡結構和critic網絡結構的參數;
步驟3,在軌壓控制任務分配至每個智能體agent進行任務訓練的過程中,由步驟1中的公式(4)與公式(5)計算得到ΔEm(t)、Δ2Em(t),并由此生成狀態向量Sm(t)=[Em(t),ΔEm(t),Δ2Em(t)]T,其中,所述狀態向量Sm(t)用于表示不同時刻下第m個智能體agent的軌壓變化特征;
步驟4,通過神經網絡將狀態向量Sm(t)映射成PID控制器的KP、KI、KD三個參數值,并將三個所述參數值作用于增量式PID控制器,同時根據公式(4)計算一次軌壓的偏差變化率ΔE(t),并根據公式(6)計算獎勵值rm(t),以此完成一步樣本采樣,其中,所述公式(6)為:
其中,ε為軌壓最大誤差限定值,em(t)為第m個智能體agent此時的軌壓誤差,em(t-1)為第m個智能體agent上一時刻的軌壓誤差,為折扣率,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶紅江機械有限責任公司,未經重慶紅江機械有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010720601.5/1.html,轉載請聲明來源鉆瓜專利網。





