[發明專利]建立潮流狀態調整的并行深度強化學習模型的方法及系統有效
| 申請號: | 202110286364.0 | 申請日: | 2021-03-17 |
| 公開(公告)號: | CN113517684B | 公開(公告)日: | 2023-08-25 |
| 發明(設計)人: | 王甜婧;湯涌;郭強;黃彥浩;陳興雷;文晶;李文臣;宋新立;李芳 | 申請(專利權)人: | 中國電力科學研究院有限公司 |
| 主分類號: | H02J3/00 | 分類號: | H02J3/00 |
| 代理公司: | 北京工信聯合知識產權代理有限公司 11266 | 代理人: | 姜麗樓 |
| 地址: | 100192 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 建立 潮流 狀態 調整 并行 深度 強化 學習 模型 方法 系統 | ||
1.一種建立潮流狀態調整的并行深度強化學習模型的方法,其特征在于,包括:
建立潮流狀態、動作、策略、獎勵和回報,形成馬爾科夫決策過程;
根據所述潮流狀態、動作、策略、獎勵和回報,定位調整目標、篩選可動作設備、計算發電機的動作量,所述調整目標包括不同的斷面合集;
根據所述調整目標、可動作設備以及發電機的動作量,建立考慮N-1靜態穩定約束的潮流狀態調整的并行深度強化學習模型;
建立潮流狀態、動作、策略、獎勵和回報,形成馬爾科夫決策過程,包括:
根據當前各線路的有功功率和發電機的有功功率,確定潮流狀態空間為:
其中,s為潮流狀態空間,PLi和PGi分別為第i條線路和第i個發電機的有功功率,nL為線路的數量,nG為線路和發電機的數量;
通過動作發電機使潮流滿足約束,確定動作空間為:
其中,A為動作空間,Gi為第i個發電機的標志位;
根據以下公式,確定策略,所述策略是一種動作的條件概率分布p:
π(a|s)=p(a|s)
其中π為策略,a為動作;
建立潮流狀態、動作、策略、獎勵和回報,形成馬爾科夫決策過程,還包括:
在當前潮流越限的情況下,確定當前潮流越限的獎勵為:
其中,r為當前潮流越限的獎勵,λR為獎賞系數,和分別為第i條線路的當前功率和功率上限,和分別為第i個節點的當前電壓和電壓下限;
建立潮流狀態、動作、策略、獎勵和回報,形成馬爾科夫決策過程,還包括:
根據隨著時間積累的獎勵,確定回報:
其中,G為回報,t為時間,γ為衰減系數,τ為一個時間周期。
2.根據權利要求1所述的方法,其特征在于,建立潮流狀態、動作、策略、獎勵和回報,形成馬爾科夫決策過程,還包括:
在N-1潮流越限的情況下,確定經過N-1計算后,得到N個缺失一個元件的潮流,根據N個潮流的越限情況,統計每條線路的累計越限數:
其中,NL為每條線路的累計越限數,為第i條線路的累計越限數;
根據所述每條線路的累計越限數以及線路總數,確定累計越限總數:
其中,NZL為累計越限總數,nL為線路總數;
要使潮流滿足N-1約束,將每次調整后的累計越限總數計入獎勵,體現當前的越線情況,確定累計越限總數獎勵為:
其中,r1為累計越限總數獎勵,和Ninit分別為第j次調整后的越限數和初始越限數;
將每條線路在每次調整后的越限轉移情況計入獎勵,體現當前狀態的越限情況,確定越限轉移情況獎勵為:
其中,r2為越限轉移情況獎勵,為第j條線路的越限數,為第j條線路的初始越限數,和分別為初始越限數和當前增加越限數;
將越限功率計入獎勵,體現當前的越限程度,確定越限功率獎勵為:
其中,r3為越限功率獎勵,和分別為第j次調整后第i條越限線路的越限功率和越限線路數;和分別為初始狀態下第i條越限線路的越限功率和越限線路數;
根據所述累計越限總數獎勵、越限轉移情況獎勵以及越限功率獎勵,確定N-1潮流越限的獎勵。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電力科學研究院有限公司,未經中國電力科學研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110286364.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高頻線路板的制作工藝
- 下一篇:吸力式樁基礎的安裝精度控制方法





