[發明專利]基于ME-TD3算法的風電場動態參數智能校核方法有效
| 申請號: | 202110265065.9 | 申請日: | 2021-03-10 |
| 公開(公告)號: | CN113032934B | 公開(公告)日: | 2022-09-20 |
| 發明(設計)人: | 安軍;周慶鋒;劉征帆;金宏;蔣振國;季軼;王玉鵬;楊宇童 | 申請(專利權)人: | 東北電力大學;國網吉林省電力有限公司吉林供電公司 |
| 主分類號: | G06F30/18 | 分類號: | G06F30/18;G06F30/27;G06N3/08;G06F111/02;G06F113/06 |
| 代理公司: | 吉林市達利專利事務所 22102 | 代理人: | 陳傳林 |
| 地址: | 132012 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 me td3 算法 電場 動態 參數 智能 校核 方法 | ||
1.一種基于ME-TD3算法的風電場動態參數智能校核方法,其特征是,它包括以下內容:
1)裁剪雙Q學習:在對裁剪雙Q學習的基礎上,對裁剪雙Q學習進行改進,設置兩套評價網絡來估算Q值,并取相對較小的Q值作為兩個網絡更新的目標,目標值計算見式(1),損失函數見式(2),網絡的初始參數不同決定兩個網絡的Q值會出現差異,通過選擇小的Q值進行估計,
式中,y為目標值函數,r為即刻回報值,γ為折扣率,為狀態s'和動作下的目標價值函數,θ為評價網絡的權重參數,φ為動作網絡的權重參數,d為動作停止標志位,表示存放經驗的經驗池;
2)延遲策略更新:當動作網絡保持不變時,是否更新目標網絡都不會影響價值函數的正確收斂;但當動作和評價網同步更新時,不采用目標網絡就能夠使得訓練不穩定或發散,因此,為減小動作網絡更新所導致的目標變化所帶來的波動性,評價網絡的更新頻率要高于動作網絡的更新頻率,評價網更新k次后動作網更新1次來解決策略和值函數的耦合問題;
3)目標策略平滑:ME-TD3算法在構建價值函數的更新目標過程中,在原有動作的基礎上針對每一維度都施加一個服從正態分布的擾動值,并將施加擾動后的動作值限定在規定范圍之內,見式(3),
式中,a'(s')為狀態s'下的動作值,為動作網絡輸出值,ε為正態分布擾動值,σ為正態分布方差,-c和c分別為正態分布擾動值的上、下限,aLow和aHigh分別為動作值上、下限;
4)多經驗池概率回放:ME-TD3算法根據樣本對網絡訓練的影響程度對其進行分類,將經驗池一分為二,經驗池1存放優質樣本,經驗池2存放一般樣本,優質樣本取到的概率高,一般樣本取到的概率低,具體步驟為:
①首先初始化PSAT仿真環境和ME-TD3算法中的動作網絡、評價網絡1以及評價網絡2的權重參數θμ、θμ′、以及探索方差σ,對于每個回合,都給出一組符合校核參數范圍要求的參數初值s;
②將參數初值s輸入到ME-TD3算法中的動作網絡中,通過施加探索方差σ得到參數的一組校核策略a,通過校核策略求出調整后的參數s′,將調整后的參數s′與仿真環境PSAT進行交互,求出有功功率、機端電壓的仿真軌跡與實測軌跡的偏差值,即回報函數值r,以及仿真軌跡是否發散的標志位done,將調整前后的參數s和s′,以及校核策略a、回報函數值r、仿真軌跡是否發散的標志位done作為一條經驗根據回報函數來決定這條經驗存入經驗池1,還是經驗池2中,當經驗池1容量不足一半時,回報函數值r大于-1的經驗存入經驗池1中,其他經驗存入經驗池2中;當經驗池1容量大于等于一半時,若回報函數值r大于經驗池1中所存經驗回報函數r的平均值,則本條經驗存入經驗池1中,否則存入經驗池2中;
③當經驗池1的經驗達到最大容量時,開始進行網絡的學習過程,首先按照采樣概率ξ和1-ξ分別從經驗池1、經驗池2中采樣,并將所采集的樣本順序打亂以便網絡學習,采樣數量為Batch_size,對于ME-TD3算法的評價網絡,將樣本的調整后參數s′輸入到動作網絡中得到下一步的調整策略a′,將下一步的調整策略a′加入服從正態分布的噪聲后與調整后參數s′一同輸入到ME-TD3算法的評價網絡1和2中,將兩個網絡輸出的評價值取最小值后由公式5得到目標網絡的評價值targetQ,將調整前參數s和校核策略a一同分別輸入到ME-TD3算法的評價網絡1和2中得到主網絡的評價值currentQ1和currentQ2,評價網絡的損失值即為目標網絡評價值與主網絡評價值的均方誤差,計算出評價網絡的損失值后,采用Adam優化器分別對ME-TD3算法的評價網絡1和2進行參數的反向傳遞更新,優化網絡權重參數,對于ME-TD3算法的動作網絡,將調整前的參數s和校核策略a一同輸入到ME-TD3算法的評價網絡1中,取輸出值的負平均值作為ME-TD3算法動作網的損失值,ME-TD3算法的動作網絡和評價網絡均采用軟更新的方式對網絡參數進行更新,且更新頻率為ME-TD3算法的評價網絡更新k次,ME-TD3算法的動作網絡更新1次;
④對于每個回合,若到某一步仿真軌跡是否發散的標志位done為1,則跳出該回合并進入下一回合,并重置參數初值s;若仿真軌跡是否發散的標志位done一直為0,則保持馬爾可夫過程一直到最大步數為止,然后進入下一回合并重置參數初值s,學習過程期間,每進行一步都需對探索方差按照方差下降率進行計算,以保證隨著學習過程的進行,探索方差逐漸減小至0,
targetQ=r+(1-done)·γ·Qmin (5)
ME-TD3算法的動作網絡的應用過程為:首先,初始化網絡參數并將訓練網絡時保存的收斂后的知識,即網絡權重參數加載進來,然后,將待校核的參數輸入到ME-TD3算法的動作網絡中,動作根據保存下來的知識給出一個能使ME-TD3算法的評價網絡評價最高的參數校核策略,使有功功率、極端電壓的仿真軌跡與實測數據軌跡參數最接近。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北電力大學;國網吉林省電力有限公司吉林供電公司,未經東北電力大學;國網吉林省電力有限公司吉林供電公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110265065.9/1.html,轉載請聲明來源鉆瓜專利網。





