[發明專利]一種基于A3C-PID的自適應軌壓調節方法及存儲介質在審

申請號：	202010720601.5	申請日：	2020-07-24
公開（公告）號：	CN111856920A	公開（公告）日：	2020-10-30
發明（設計）人：	張朦朦;惠小亮;李鵬豪;張永林;楊倩	申請（專利權）人：	重慶紅江機械有限責任公司
主分類號：	G05B11/42	分類號：	G05B11/42;G05B13/04;G05B13/02
代理公司：	重慶華科專利事務所 50123	代理人：	康海燕
地址：	402162 ***	國省代碼：	重慶;50
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于 a3c pid 自適應調節方法存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于A3C-PID的自適應軌壓調節方法，其特征在于，包括如下步驟：

步驟1，建立第m個智能體agent的增量式PID軌壓控制系統結構，其計算公式表示為：

ΔU_m(t)＝K_p(t)(e_m(t)-e_m(t-1))+K_I(t)e_m(t-1)+K_D(t)(e_m(t)-2*e_m(t-1)+e_m(t-2)) (1)

U_m(t)＝U_m(t-1)+ΔU_m(t) (2)

E_m(t)＝e_m(t)＝R(t)-Y(t) (3)

ΔE_m(t)＝e_m(t)-e_m(t-1) (4)

Δ²E_m(t)＝e_m(t)-2*e_m(t-1)+e_m(t-2) (5)

式中：

取m∈[1,n]，n表示智能體agent總數，m代表第m個智能體agent；

K_P、K_I、K_D——被狀態向量映射成PID控制器的三個參數值；

ΔU_m(t)——本次控制量增量；E_m(t)＝e_m(t)——本次軌壓偏差；

e_m(t-1)——上一次的軌壓偏差；e_m(t-2)——上兩次的軌壓偏差；

U_m(t)——本次的控制量；U_m(t-1)——上一次的控制量；

R(t)——目標軌壓值；Y(t)——本次實測的軌壓值；

ΔE_m(t)——一次軌壓的偏差變化率；Δ²E_m(t)——二次軌壓的偏差變化率；

步驟2,通過A3C算法使得中央大腦global與n個智能體agent各自維持Actor網絡結構與Critic網絡結構，所述智能體Agent通過Actor網絡結構與Critic網絡結構中獲取多個回合獲得的經驗，并將所述經驗上傳到中央大腦網絡Global-net中，所述中央大腦global再將匯集到的智能體agent的經驗下發至每個智能體agent，進而將軌壓控制任務分配至每個智能體agent中進行訓練，其中，所述經驗包括actor網絡結構和critic網絡結構的參數；

步驟3，在軌壓控制任務分配至每個智能體agent進行任務訓練的過程中，由步驟1中的公式(4)與公式(5)計算得到ΔE_m(t)、Δ²E_m(t)，并由此生成狀態向量S_m(t)＝[E_m(t),ΔE_m(t),Δ²E_m(t)]^T，其中，所述狀態向量S_m(t)用于表示不同時刻下第m個智能體agent的軌壓變化特征；

步驟4，通過神經網絡將狀態向量S_m(t)映射成PID控制器的K_P、K_I、K_D三個參數值，并將三個所述參數值作用于增量式PID控制器，同時根據公式(4)計算一次軌壓的偏差變化率ΔE(t)，并根據公式(6)計算獎勵值r_m(t)，以此完成一步樣本采樣，其中，所述公式(6)為：

其中，ε為軌壓最大誤差限定值，e_m(t)為第m個智能體agent此時的軌壓誤差，e_m(t-1)為第m個智能體agent上一時刻的軌壓誤差，為折扣率，

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于重慶紅江機械有限責任公司，未經重慶紅江機械有限責任公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010720601.5/1.html，轉載請聲明來源鉆瓜專利網。