[發明專利]一種基于深度增強學習的可中斷負荷優選方法在審
| 申請號: | 201911049739.0 | 申請日: | 2019-10-31 |
| 公開(公告)號: | CN111428903A | 公開(公告)日: | 2020-07-17 |
| 發明(設計)人: | 李秋燕;王利利;張藝涵;田春箏;李科;郭新志;于昊正;付科源;馬杰;孫義豪;全少理;郭勇;楊卓;羅潘;明威宇;李妍;王少榮 | 申請(專利權)人: | 國家電網有限公司;國網河南省電力公司經濟技術研究院;華中科技大學 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q10/06;G06Q50/06;H02J3/14;G06N3/04;G06N3/08 |
| 代理公司: | 鄭州知己知識產權代理有限公司 41132 | 代理人: | 季發軍 |
| 地址: | 100031 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 增強 學習 中斷 負荷 優選 方法 | ||
1.一種基于深度增強學習的可中斷負荷優選方法,其特征在于,包括:
(1)通過智能電表及量測裝置獲取t時刻系統的觀測狀態;
(2)根據當前狀態采取相應的需求響應控制策略,得到配電網即時回報模型;
(3)為了使長遠回報最大化,需要采取最優的動作,定義所選負荷需求響應的動作估值函數Qπ(st,at),根據環境的運行狀態觀測值,通過迭代進行動作估值函數更新,得到最優動作估值函數的目標值
(4)由目標值與神經網絡預計輸出Qπ′(st,at,ω)得到神經網絡偏差函數,利用小批量梯度下降法更新神經網絡參數,完成增強學習;
(5)讀取量測裝置中數據獲取k時刻實時狀態sk,送入已經訓練完成的神經網絡中,選出最佳可中斷負荷點。
2.根據權利要求1所述的基于深度增強學習的可中斷負荷優選方法,其特征在于,所述步驟(1)包括:
在所有節點安裝智能電表監測其功率,隨機選出四個節點作為一組可中斷負荷,在DER接入節點處安裝量測裝置獲取電壓數據,故系統可觀測的狀態st表示為其中,為t時刻各末端節點i的電壓,Ptj為t時刻各可中斷負荷j的功率,NU、NC分別為電壓觀測節點集合和所選負荷接入節點集合。
3.根據權利要求1所述的一種基于深度增強學習的可中斷負荷優選方法,其特征在于,所述步驟(2)包括:
(2.1)根據當前狀態st采取相應的需求響應控制策略at,按照中斷或不中斷兩種狀態考慮,相應設定t時刻的動作函數at表示為為第j個所選負荷的狀態變量,只有0或1兩種取值,取值為0代表中斷供電,取值為1代表不中斷,保證可中斷負荷動作后末端節點電壓在允許范圍內的情況下,選出用戶滿意度最高的一組可中斷負荷點,故建立配電網即時運行回報模型rt+1為其中所選節點j的中斷控制得分和滿意度得分與其對應權重wIL和wuser加權求和得到,權重的數值可由虛擬電廠根據具體的運行目標來選擇;
(2.2)對于采用相鄰兩個采樣時間負荷的狀態改變量來定義中斷控制得分,若狀態改變,回報取負值,否則取值為0;
(2.3)對于滿意度評分選取負荷動作后功率變化為參考,按照負荷動作后功率Ptj變化超過不同數值,取為不同負值。
4.根據權利要求1所述的一種基于深度增強學習的可中斷負荷優選方法,其特征在于,所述步驟(3)包括:
定義IL需求響應的動作估值函數如下:
Qπ(st,at)=E[rt+1+λrt+2+λ2rt+3+…|st,at]=E[rt+1+λQπ(st+1,at+1)|st,at]
上式中,π代λ∈[0,1]表控制策略,E代表期望值,rt+1代表執行完具體動作at后的即時回報,稱為折合因子,表明未來回報相對于當前回報的重要程度,最優動作估值函數的目標值由貝爾曼方程可推出為式中At+1代表在t+1時刻所有能執行動作的集合,根據環境的運行狀態觀測值,通過迭代進行動作估值函數更新,具體公式如下:
其中α為學習速率,滿足0≤α≤1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家電網有限公司;國網河南省電力公司經濟技術研究院;華中科技大學,未經國家電網有限公司;國網河南省電力公司經濟技術研究院;華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911049739.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種等離子體體征參數檢測電路及可插拔模塊
- 下一篇:起立輔助裝置以及偏移構件
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





