[發明專利]基于元強化學習的大規模負荷需求響應策略、系統及設備在審
| 申請號: | 202111284855.8 | 申請日: | 2021-11-01 |
| 公開(公告)號: | CN114004497A | 公開(公告)日: | 2022-02-01 |
| 發明(設計)人: | 張穎;關朝陽;吳學超;彭暉;陳錦桂;廖曄;秦兆銘;曹軍威;胡雯 | 申請(專利權)人: | 國網福建省電力有限公司廈門供電公司;廈門智慧電力成套新能源科技有限公司 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06Q10/04;G06Q50/06;G06K9/62;G06N20/00 |
| 代理公司: | 廈門加減專利代理事務所(普通合伙) 35234 | 代理人: | 包愛萍 |
| 地址: | 361000 福*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 大規模 負荷 需求 響應 策略 系統 設備 | ||
本發明涉及電網需求響應技術領域,特別涉及基于元強化學習的大規模負荷需求響應策略、系統及設備,其中,基于元強化學習的大規模負荷需求響應策略,包括構建優化模型并將所述優化模型進行轉化以得到用電成本最低的初始模型;對所述初始模型進行元強化學習訓練得到響應模型;通過所述響應模型得到大規模負荷需求的響應策略,以進行多用戶或多設備的負荷需求響應。通過引入元強化學習的方式,不直接針對某個特定需求進行訓練,而同時在多個需求響應上進行訓練,從而針對所有需求的共性得到初始模型,在初始模型的基礎上再單獨針對特定特殊需求響應進行訓練,加速訓練過程,有效節省降低了在針對大規模用戶需求響應訓練的時間成本和經濟成本。
技術領域
本發明涉及電網需求響應技術領域,特別涉及基于元強化學習的大規模負荷需求響應策略、系統及設備。
背景技術
電力供應緊張已成為經濟社會生活中的主要矛盾之一,保證電力供需平衡,實現電力系統安全、可靠、經濟、清潔、高效已成為經濟發展和人民生活水平提高的重要保障。依托市場化改革推進與國家能源政策調整,電力網絡與電力市場、電力網絡與電力用戶之間的協調以及交換越發緊密。需求側資源管理成為在同樣用電功能情況下,減少電量消耗、緩解缺電壓力、降低供電和用電成本的重要措施。需求響應(Demand Response,簡稱DR)在電力市場競爭中的引入,已成為通過價格信號和激勵機制加強需求側資源在電力市場中作用的重要手段。通過需求響應進行輔助頻率調節、保障系統安全運行,以及完成其他電力系統輔助服務,已逐漸成為未來電力市場發展趨勢。
對于基于激勵的直接負荷控制(Directloadcontrol,簡稱DLC)策略,目前已有眾多文獻進行了深入探討。自強化學習算法出現以來,其數據驅動的特性助力電力需求響應快速發展。
然而,考慮到多用戶及多種用電負荷設備,現有強化學習算法的訓練過程需要與真實場景進行大量的交互,這無疑大大增加了強化學習算法使用的時間成本和經濟成本,尤其是面臨多用戶及多種用電負荷設備大規模負荷需求響應時體現得尤為明顯。
發明內容
為解決上述現有技術中增加強化學習使用的時間成本的不足,本發明提供一種基于元強化學習的大規模負荷需求響應策略,可以有效節省降低了在針對大規模用戶需求響應訓練的時間成本和經濟成本。
本發明提供一種基于元強化學習的大規模負荷需求響應策略,包括
構建優化模型并將所述優化模型進行轉化以得到用電成本最低的初始模型;
對所述初始模型進行元強化學習訓練得到響應模型;
通過所述響應模型得到大規模負荷需求的響應策略,以進行多用戶或多設備的負荷需求響應。
在一實施例中,根據離散時間內用電負荷設備的約束條件和用電成本構建所述優化模型,所述約束條件包括功率平衡約束及用電負荷設備約束,所述優化模型為
其中,為電網負荷功率,λt為t時刻的用電成本,和為t時刻所述用電負荷識別的連續控制信號。
在一實施例中,將所述優化模型轉化為馬爾可夫決策過程,所述馬爾可夫決策過程表示為
其中,為狀態集合,為動作集合,為所述優化模型的狀態轉移函數,為所述優化模型的獎勵函數,t時刻的所述獎勵函數為用電成本的相反數。
在一實施例中,通過所述馬爾可夫決策過程得到用電成本最低的所述初始模型,所述初始模型為
在每個馬爾可夫決策時刻,先獲取當前狀態s并根據所述狀態s和所述初始模型在動作集合選擇動作a,再根據狀態轉移函數Pi(s′|s,a)獲得狀態s′和獎勵ri=Ri(s,a)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網福建省電力有限公司廈門供電公司;廈門智慧電力成套新能源科技有限公司,未經國網福建省電力有限公司廈門供電公司;廈門智慧電力成套新能源科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111284855.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種臨床醫學檢驗用廢樣處理裝置
- 下一篇:工件端面位姿評價方法
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





