[發(fā)明專利]基于元強(qiáng)化學(xué)習(xí)的大規(guī)模負(fù)荷需求響應(yīng)策略、系統(tǒng)及設(shè)備在審
| 申請?zhí)枺?/td> | 202111284855.8 | 申請日: | 2021-11-01 |
| 公開(公告)號: | CN114004497A | 公開(公告)日: | 2022-02-01 |
| 發(fā)明(設(shè)計)人: | 張穎;關(guān)朝陽;吳學(xué)超;彭暉;陳錦桂;廖曄;秦兆銘;曹軍威;胡雯 | 申請(專利權(quán))人: | 國網(wǎng)福建省電力有限公司廈門供電公司;廈門智慧電力成套新能源科技有限公司 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06Q10/04;G06Q50/06;G06K9/62;G06N20/00 |
| 代理公司: | 廈門加減專利代理事務(wù)所(普通合伙) 35234 | 代理人: | 包愛萍 |
| 地址: | 361000 福*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 強(qiáng)化 學(xué)習(xí) 大規(guī)模 負(fù)荷 需求 響應(yīng) 策略 系統(tǒng) 設(shè)備 | ||
1.一種基于元強(qiáng)化學(xué)習(xí)的大規(guī)模負(fù)荷需求響應(yīng)策略,其特征在于:包括
構(gòu)建優(yōu)化模型并將所述優(yōu)化模型進(jìn)行轉(zhuǎn)化以得到用電成本最低的初始模型;
對所述初始模型進(jìn)行元強(qiáng)化學(xué)習(xí)訓(xùn)練得到響應(yīng)模型;
通過所述響應(yīng)模型得到大規(guī)模負(fù)荷需求的響應(yīng)策略,以進(jìn)行多用戶或多設(shè)備的負(fù)荷需求響應(yīng)。
2.根據(jù)權(quán)利要求1所述的基于元強(qiáng)化學(xué)習(xí)的大規(guī)模負(fù)荷需求響應(yīng)策略,其特征在于:根據(jù)離散時間內(nèi)用電負(fù)荷設(shè)備的約束條件和用電成本構(gòu)建所述優(yōu)化模型,所述約束條件包括功率平衡約束及用電負(fù)荷設(shè)備約束,所述優(yōu)化模型為
;其中,為電網(wǎng)負(fù)荷功率,λt為t時刻的用電成本,和為t時刻所述用電負(fù)荷識別的連續(xù)控制信號。
3.根據(jù)權(quán)利要求1所述的基于元強(qiáng)化學(xué)習(xí)的大規(guī)模負(fù)荷需求響應(yīng)策略,其特征在于:將所述優(yōu)化模型轉(zhuǎn)化為馬爾可夫決策過程,所述馬爾可夫決策過程表示為
其中,為狀態(tài)集合,為動作集合,為所述優(yōu)化模型的狀態(tài)轉(zhuǎn)移函數(shù),為所述優(yōu)化模型的獎勵函數(shù),t時刻的所述獎勵函數(shù)為用電成本的相反數(shù)。
4.根據(jù)權(quán)利要求1所述的基于元強(qiáng)化學(xué)習(xí)的大規(guī)模負(fù)荷需求響應(yīng)策略,其特征在于:通過所述馬爾可夫決策過程得到用電成本最低的所述初始模型,所述初始模型為
在每個馬爾可夫決策時刻,先獲取當(dāng)前狀態(tài)s并根據(jù)所述狀態(tài)s和所述初始模型在動作集合選擇動作a,再根據(jù)狀態(tài)轉(zhuǎn)移函數(shù)Pi(s′|s,a)獲得狀態(tài)s′和獎勵ri=Ri(s,a)。
5.根據(jù)權(quán)利要求1所述的基于元強(qiáng)化學(xué)習(xí)的大規(guī)模負(fù)荷需求響應(yīng)策略,其特征在于:至少構(gòu)造一個所述優(yōu)化模型,所述優(yōu)化模型的數(shù)量設(shè)有多個,各優(yōu)化模型之間具有的相似性,先參數(shù)化所述初始模型再利用所述元強(qiáng)化學(xué)習(xí)訓(xùn)練所述初始模型。
6.根據(jù)權(quán)利要求1所述的基于元強(qiáng)化學(xué)習(xí)的大規(guī)模負(fù)荷需求響應(yīng)策略,其特征在于:參數(shù)化的所述初始模型為π(a|s;θ),通過元強(qiáng)化學(xué)習(xí)訓(xùn)練所述初始模型包括以下步驟:
步驟1,初始化參數(shù)θ,并隨機(jī)選取若干優(yōu)化模型;
步驟2,獲取第一狀態(tài)并根據(jù)參數(shù)化的所述初始模型π(·|si,t;θ)隨機(jī)選取第一動作;
步驟3,執(zhí)行第一動作并獲得第二狀態(tài)和獎勵;
步驟4,將狀態(tài)轉(zhuǎn)移過程存檔至數(shù)據(jù)庫D;
步驟5,計算并根據(jù)梯度更新參數(shù)
步驟6,循環(huán)進(jìn)行步驟2至步驟5,以更新參數(shù)
7.根據(jù)權(quán)利要求1所述的基于元強(qiáng)化學(xué)習(xí)的大規(guī)模負(fù)荷需求響應(yīng)策略,其特征在于:在針對特定所述優(yōu)化模型進(jìn)行訓(xùn)練時,
步驟1,加載參數(shù)θi為所述元強(qiáng)化學(xué)習(xí)的參數(shù)θ;
步驟2,獲取第一狀態(tài)并根據(jù)參數(shù)化所述初始模型π(·|si,t;θi)隨機(jī)選取第一動作;
步驟3,執(zhí)行第一動作并獲得第二狀態(tài)和獎勵;
步驟4,計算并根據(jù)梯度更新參數(shù)
8.根據(jù)權(quán)利要求1所述的基于元強(qiáng)化學(xué)習(xí)的大規(guī)模負(fù)荷需求響應(yīng)策略,其特征在于:參數(shù)化的所述初始模型的損失為
,所述損失用于計算所述梯度。
9.一種基于元強(qiáng)化學(xué)習(xí)的大規(guī)模負(fù)荷需求響應(yīng)系統(tǒng),其特征在于:包括構(gòu)建模塊、訓(xùn)練模塊和響應(yīng)模塊;
所述構(gòu)建模塊用于構(gòu)建優(yōu)化模型并將所述優(yōu)化模型進(jìn)行轉(zhuǎn)化以得到用電成本最低的初始模型;
所述訓(xùn)練模塊用于對所述初始模型進(jìn)行元強(qiáng)化學(xué)習(xí)訓(xùn)練得到響應(yīng)模型;
所述響應(yīng)模塊用于通過所述響應(yīng)模型得到大規(guī)模負(fù)荷需求的響應(yīng)策略,以進(jìn)行多用戶或多設(shè)備的負(fù)荷需求響應(yīng)。
10.一種基于元強(qiáng)化學(xué)習(xí)的大規(guī)模負(fù)荷需求響應(yīng)設(shè)備,其特征在于:包括至少一個處理器、及與所述處理器通信連接的存儲器,其中所述存儲器存儲可被至少一個處理器執(zhí)行的指令,所述指令被至少一個處理器執(zhí)行,以使所述處理器執(zhí)行如權(quán)利要求1-8任一項所述的基于元強(qiáng)化學(xué)習(xí)的大規(guī)模負(fù)荷需求響應(yīng)策略。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國網(wǎng)福建省電力有限公司廈門供電公司;廈門智慧電力成套新能源科技有限公司,未經(jīng)國網(wǎng)福建省電力有限公司廈門供電公司;廈門智慧電力成套新能源科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111284855.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規(guī)劃、調(diào)度或分配時間、人員或機(jī)器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機(jī)輔助管理
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





