[發明專利]基于雙神經網絡的深度學習多智能體微電網協同控制方法在審
| 申請號: | 202210797934.7 | 申請日: | 2022-07-08 |
| 公開(公告)號: | CN115333143A | 公開(公告)日: | 2022-11-11 |
| 發明(設計)人: | 馬興明;郎宇寧;楊東海;王佳興;毛新宇;周義民;張冬;孟慶宇;徐鳳霞;仝書林 | 申請(專利權)人: | 國網黑龍江省電力有限公司大慶供電公司;齊齊哈爾大學;國家電網有限公司 |
| 主分類號: | H02J3/38 | 分類號: | H02J3/38;H02J3/48;H02J3/50;H02J3/24;H02J3/16;H02J3/06;G06N3/04;G06N3/08;G06N7/00 |
| 代理公司: | 大慶知文知識產權代理有限公司 23115 | 代理人: | 胡海山 |
| 地址: | 163000 黑龍江省*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 神經網絡 深度 學習 智能 電網 協同 控制 方法 | ||
1.一種基于雙神經網絡的深度學習多智能體微電網協同控制方法,其特征在于,包括:
步驟S1、建立微電網的電壓與頻率控制模型;
步驟S2、通過采用深度強化學習框架下的微電網模型進行訓練,尋找最優的Q值網絡,包括具體步驟:
步驟S21、構建強化學習的環境狀態空間:強化學習的環境為微電網系統,環境與智能體進行反饋獎勵,以及微電網多智能體系統控制器的頻率偏差狀態構成狀態空間的可控部分、每次調度的時間信息Δt構成狀態空間的時間部分;
步驟S22、構建強化學習的環境動作空間:每次調度智能體頻率偏差進行控制;
步驟S23、定義獎勵函數:用來引導智能體實現預定微電網優化目標,;
步驟S24、設置儲能系統后備控制器,使得可調度智能體與儲能系統的智能體產生的動作不超出系統的功率范圍;
步驟S3、建立雙神經網絡深度強化學習算法流程:采用神經網絡對步驟S2中定義的強化學習環境進行多次訓練以達到獎勵值的收斂;
采用神經網絡Q(s,a;ω)作為函數逼近器來對Q(s,a)函數進行估計;根據狀態和動作的輸入經過神經網絡分析后得到動作的Q值,并選擇最大Q值作為下一步的動作;
深度神經網絡的權重ω表示系統狀態到Q值的映射,定義損失函數Li(ω)來更新神經網絡權重ω與對應的Q值:
Li(ωt)=Es[(yt-Q(s,a;ωt))2] 式(4)
其中yt表示為目標函數:
通過對損失函數求梯度并執行隨機梯度下降,來更新智能體的權重:
構建估計網絡與目標網絡,兩個網絡結構相同但是參數不同,估計網絡值小于目標網絡,采用估計網絡不斷學習迭代來更新網絡參數,目標網絡一段時間T采用估計網絡更新的參數來更新自身的參數,這兩個參數一個用來選擇動作,一個用來評估當前狀態的值,其中,這兩個參數分別記為ωt與ωt-:
微電網系統中多智能體按照一定概率隨機選擇動作與環境進行更好的探索反饋,尋找特定狀態下使獎勵最大化的動作,隨著訓練次數的不斷增加直至完全采用使Q值最大的動作,并最終收斂到最優策略;
步驟S4、基于強化學習訓練出的Q值,實現分布式電源的頻率偏差調節。
2.如權利要求1所述的基于雙神經網絡的深度學習多智能體微電網協同控制方法,其特征在于,所述交流微電網以同步發電機控制理論為基礎,采用下垂控制方法對微電網的有功功率和無功功率進行調節;
其中:下垂控制的有功功率方法包括:
f=f0-kp(P-P*) 式(1)
式中:f0為額定頻率,p*為額定有功功率,kp為下垂系數。
3.如權利要求1所述的基于雙神經網絡的深度學習多智能體微電網協同控制方法,其特征在于,步驟S24具體包括:
通過馬爾可夫決策原理,利用Q表格來存儲系統狀態和動作對應的值函數Q(s,a),即系統在某個狀態在t時刻st下采取動作at將得到的累計回報Rt可以表示為預期回報,γ表示為折扣因子:
Q(s,a)=E[Rt|st=s,at=a]=E[rt+γQ(st+1,at+1)+γ2(st+2,at+2)+...] 式(2)
在此訓練過程中,Q值訓練模組以儲能裝置元組(st,at,rt,st+1)為樣本進行訓練,st為當前狀態,at為當前的動作,rt為執行動作后的即時獎勵,st+1為下一個狀態,t為時刻,Q函數遞推更新策略為:
式中α為學習率,γ為折扣因子。
4.如權利要求1所述的基于雙神經網絡的深度學習多智能體微電網協同控制方法,其特征在于,所述步驟S4包括:
所述采用深度強化學習算法對步驟S2與步驟S3的控制策略微電網的模型進行多次訓練,利用深度強化學習算法訓練出Q值以優化多智能體系統的穩定性;
根據步驟S2的智能體根據自身狀態按照一定概率隨機選擇動作以探索環境,根據自身狀態選取獎勵最大化的動作,隨著訓練次數的增加,降低探索概率選擇Q值最大的動作,以達到最優收斂策略;
根據步驟S3所述的深度強化學習算法采用優先經驗回放的方式存儲數據(st,at,rt,st+1)并記錄其特征向量,在訓練初期智能體隨機采取動作以產生足夠多的訓練數據存儲到經驗池,記憶單元填滿后隨機選取數據進行神經網絡的參數更新,并在策略訓練過程中不斷獲取新的數據更新相關性較差的數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網黑龍江省電力有限公司大慶供電公司;齊齊哈爾大學;國家電網有限公司,未經國網黑龍江省電力有限公司大慶供電公司;齊齊哈爾大學;國家電網有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210797934.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種四輪機器人及其運動控制方法
- 下一篇:一種婦產科分泌物檢查裝置





