[發明專利]一種基于在線深度強化學習的需求響應控制方法及系統有效
| 申請號: | 202110994777.4 | 申請日: | 2021-08-27 |
| 公開(公告)號: | CN113723798B | 公開(公告)日: | 2022-11-11 |
| 發明(設計)人: | 劉嘉寧;蘇卓;何宇俊;王可;劉沅昆;曾凱文;段秦尉;杜斌 | 申請(專利權)人: | 廣東電網有限責任公司;廣東電網有限責任公司電力調度控制中心 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06N3/04;G06N3/08;G06Q50/06 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 陳旭紅;晏靜文 |
| 地址: | 510000 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 在線 深度 強化 學習 需求 響應 控制 方法 系統 | ||
本發明提供一種基于在線深度強化學習的需求響應控制方法及系統,其中方法包括:獲取用戶的當前狀態,將所述當前狀態輸入至深度Q網絡模型,并根據用戶的控制行為,輸出第一計算結果;抽取存儲于所述經驗回放池的需求響應歷史數據,將抽取到的需求響應歷史數據作為樣本數據,根據所述樣本數據及所述第一計算結果進行訓練,得到所述深度Q網絡模型的參數;將所述控制行為、所述第一計算結果及所述參數通過貪心算法進行計算,得到所述用戶的控制行為的響應動作;根據所述響應動作進行控制操作,完成對用戶的需求響應的控制行為。本發明提高了神經網絡對當前市場環境的適應性,從而改善了神經網絡的實時決策能力。
技術領域
本發明涉及電力系統的需求響應技術領域,特別是涉及一種基于在線深度強化學習的需求響應控制方法及系統。
背景技術
自動需求響應(automated demand response,ADR)是基于自動化設備的需求響應方式。電網與用戶側系統智能化程度的不斷提升,為需求響應自動化實施奠定了基礎。ADR是建立在集成的、高速的信息系統基礎上,通過應用量測、采集、自動控制、智能決策等技術,實現電力用戶主動參與電網運行。隨著信息技術、人工智能技術的不斷發展,需求響應系統、終端產品不斷推陳出新。傳統需求響應業務執行過程中,用戶側負荷設備被動接受來自電網側需求響應控制指令,而未來基于人工智能的用戶側設備自適應調節將會逐步得到發展。在需求響應服務系統、需求響應聚合系統以及用戶側需求響應終端中,都將會內置具有自學習功能的需求響應控制終端,該終端將為需求響應服務商、聚合商以及參與響應的用戶提供智能決策功能,協助上述參與主體更加高效、經濟地參與需求響應。
深度強化學習(deep reinforcement learning,DRL)等人工智能方法通常被用來研究智能體與環境互動的決策問題,目前已經在游戲、機器人、工業控制等眾多領域取得應用。近年來,已經有許多研究試圖將深度強化學習方法引入電力系統控制和電力系統交易。當用戶參與市場化的需求響應時,用戶收益取決于市場價格的動態變化,而電力市場環境存在隨機性、時變性,普通的深度強化學習方法在由于缺少對隨機環境的適應性,因此實時控制的效果非常有限,難以滿足用戶側自動需求響應的要求。
發明內容
本發明提供一種基于在線深度強化學習的需求響應控制方法及系統,采用在線深度強化學習的方式來克服離線訓練方式對動態變化的市場環境適應性差的困難,采用基于采樣時間衰減系數的優先級抽樣方法來對經驗回放池抽樣,使得近期生成的經驗數據能夠更頻繁地被用于訓練神經網絡,提高了神經網絡對當前市場環境的適應性,從而改善了神經網絡的實時決策能力。
本發明第一方面提供一種基于在線深度強化學習的需求響應控制方法,包括:
獲取用戶的當前狀態,將所述當前狀態輸入至深度Q網絡模型,并根據用戶的控制行為,輸出第一計算結果;其中,所述當前狀態包括:內部設備的狀態及外部市場狀態,所述內部設備的狀態包括:設備啟停狀態及儲能荷電狀態,所述外部市場狀態包括:需求響應激勵信號及現貨市場價格信號;所述控制行為包括:控制儲能充放電及控制電動汽車功率;
根據用戶的需求響應歷史數據構建需求響應的經驗回放池;其中,所述需求響應的經驗回放池用于存儲所述用戶的需求響應歷史數據;
抽取存儲于所述經驗回放池的需求響應歷史數據,將抽取到的需求響應歷史數據作為樣本數據,根據所述樣本數據及所述第一計算結果進行訓練,得到所述深度Q網絡模型的參數;
將所述控制行為、所述第一計算結果及所述參數通過貪心算法進行計算,得到所述用戶的控制行為的響應動作;
根據所述響應動作進行控制操作,完成對用戶的需求響應的控制行為。
進一步地,
所述抽取存儲于所述經驗回放池的需求響應歷史數據,具體地:
根據需求響應歷史數據的優先級系數對所述經驗回放池的需求響應歷史數據進行抽樣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東電網有限責任公司;廣東電網有限責任公司電力調度控制中心,未經廣東電網有限責任公司;廣東電網有限責任公司電力調度控制中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110994777.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種分析降雨徑流污染遷移和去除的方法及系統
- 下一篇:一種晶圓勻膠顯影裝置
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





