[發(fā)明專利]一種基于深度強(qiáng)化學(xué)習(xí)的電力系統(tǒng)順序恢復(fù)方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202111305997.8 | 申請(qǐng)日: | 2021-11-05 |
| 公開(公告)號(hào): | CN114048989A | 公開(公告)日: | 2022-02-15 |
| 發(fā)明(設(shè)計(jì))人: | 高宇馨;黃偉;張?zhí)硪?/a>;程威;黃澤真 | 申請(qǐng)(專利權(quán))人: | 浙江工業(yè)大學(xué) |
| 主分類號(hào): | G06Q10/06 | 分類號(hào): | G06Q10/06;G06Q10/04;G06Q50/06;G06N3/08 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 33200 | 代理人: | 忻明年 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 強(qiáng)化 學(xué)習(xí) 電力系統(tǒng) 順序 恢復(fù) 方法 裝置 | ||
1.一種基于深度強(qiáng)化學(xué)習(xí)的電力系統(tǒng)順序恢復(fù)方法,其特征在于,所述基于深度強(qiáng)化學(xué)習(xí)的電力系統(tǒng)順序恢復(fù)方法,包括:
構(gòu)建包括深度強(qiáng)化學(xué)習(xí)Q值估計(jì)網(wǎng)絡(luò)和Target Q網(wǎng)絡(luò)的電力系統(tǒng)恢復(fù)模型,初始化Q值估計(jì)網(wǎng)絡(luò)、Target Q網(wǎng)絡(luò)和經(jīng)驗(yàn)回放池;
獲取用于訓(xùn)練的電力系統(tǒng)數(shù)據(jù)集,隨機(jī)選擇刪除電力系統(tǒng)數(shù)據(jù)集中預(yù)設(shè)數(shù)量的總線,作為初始總線狀態(tài),然后隨機(jī)選擇一個(gè)總線狀態(tài)作為當(dāng)前狀態(tài)輸入到Q值估計(jì)網(wǎng)絡(luò),根據(jù)ε貪婪策略選擇動(dòng)作,并執(zhí)行動(dòng)作,生成對(duì)應(yīng)的獎(jiǎng)勵(lì)和下一時(shí)刻的狀態(tài)信息,將當(dāng)前總線狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)和下一時(shí)刻的狀態(tài)作為一個(gè)訓(xùn)練樣本放入經(jīng)驗(yàn)回放池中;
根據(jù)樣本選擇間隔,從經(jīng)驗(yàn)回放池中采樣抽取訓(xùn)練樣本,采用獲取的訓(xùn)練樣本訓(xùn)練Q值估計(jì)網(wǎng)絡(luò),并采用Q值估計(jì)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)更新Target Q網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),直到達(dá)到預(yù)設(shè)的循環(huán)次數(shù);
將級(jí)聯(lián)失效后的電力系統(tǒng)總線狀態(tài)輸入到訓(xùn)練好的電力系統(tǒng)恢復(fù)模型中,獲取恢復(fù)動(dòng)作,對(duì)級(jí)聯(lián)失效后的電力系統(tǒng)進(jìn)行恢復(fù)。
2.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的電力系統(tǒng)順序恢復(fù)方法,其特征在于,所述采用獲取的訓(xùn)練樣本訓(xùn)練Q值估計(jì)網(wǎng)絡(luò),采用如下?lián)p失函數(shù):
其中γ是衰減因子,maxa′Q(sj+1,a′;θ′)是輸入狀態(tài)sj+1時(shí)Target Q值網(wǎng)絡(luò)執(zhí)行最優(yōu)動(dòng)作后的累計(jì)獎(jiǎng)勵(lì),Q(sj,aj,θ)是輸入狀態(tài)sj時(shí)Q值估計(jì)網(wǎng)絡(luò)執(zhí)行動(dòng)作aj后的累計(jì)獎(jiǎng)勵(lì),aj是在j時(shí)刻時(shí)的選擇執(zhí)行的動(dòng)作,rj是在j時(shí)刻時(shí)執(zhí)行動(dòng)作后生成的即時(shí)獎(jiǎng)勵(lì)。a′表示所有可能執(zhí)行的動(dòng)作之一,最優(yōu)動(dòng)作就是在Q(sj+1,a′;θ′)最大時(shí)所執(zhí)行的動(dòng)作。
3.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的電力系統(tǒng)順序恢復(fù)方法,其特征在于,所述將級(jí)聯(lián)失效后的電力系統(tǒng)總線狀態(tài)輸入到訓(xùn)練好的電力系統(tǒng)恢復(fù)模型中,獲取恢復(fù)動(dòng)作,對(duì)級(jí)聯(lián)失效后的電力系統(tǒng)進(jìn)行恢復(fù)之后,還包括:
進(jìn)行孤島檢測(cè),將孤島及輸電線路從電力系統(tǒng)中刪除。
4.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的電力系統(tǒng)順序恢復(fù)方法,其特征在于,所述將級(jí)聯(lián)失效后的電力系統(tǒng)總線狀態(tài)輸入到訓(xùn)練好的電力系統(tǒng)恢復(fù)模型中,獲取恢復(fù)動(dòng)作,對(duì)級(jí)聯(lián)失效后的電力系統(tǒng)進(jìn)行恢復(fù)之后,還包括:
進(jìn)行電力再調(diào)度,實(shí)現(xiàn)負(fù)載平衡。
5.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的電力系統(tǒng)順序恢復(fù)方法,其特征在于,所述將級(jí)聯(lián)失效后的電力系統(tǒng)總線狀態(tài)輸入到訓(xùn)練好的電力系統(tǒng)恢復(fù)模型中,獲取恢復(fù)動(dòng)作,對(duì)級(jí)聯(lián)失效后的電力系統(tǒng)進(jìn)行恢復(fù)之后,還包括:
基于DC潮流模型,重新計(jì)算DC潮流模型中的每條輸電線路的潮流;
監(jiān)控每條輸電線路,對(duì)于潮流超過線路容量的線路定義為過載線路,如果有線路過載,選擇最大過載的線路跳閘。
6.一種基于深度強(qiáng)化學(xué)習(xí)的電力系統(tǒng)順序恢復(fù)裝置,包括處理器以及存儲(chǔ)有若干計(jì)算機(jī)指令的存儲(chǔ)器,其特征在于,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至權(quán)利要求5中任意一項(xiàng)所述方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江工業(yè)大學(xué),未經(jīng)浙江工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111305997.8/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種水平床
- 下一篇:一種新型3D增材成型打印裝置及打印方法
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測(cè)或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項(xiàng)目管理,例如組織、規(guī)劃、調(diào)度或分配時(shí)間、人員或機(jī)器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲(chǔ)、裝貨、配送或運(yùn)輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動(dòng)化,例如電子郵件或群件的計(jì)算機(jī)輔助管理
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





