[發(fā)明專利]一種混合深度對(duì)抗網(wǎng)絡(luò)滾動(dòng)強(qiáng)化學(xué)習(xí)博弈策略在審
| 申請(qǐng)?zhí)枺?/td> | 201910554358.1 | 申請(qǐng)日: | 2019-06-25 |
| 公開(公告)號(hào): | CN110363399A | 公開(公告)日: | 2019-10-22 |
| 發(fā)明(設(shè)計(jì))人: | 殷林飛;張斌;羅仕逵;高放;謝佳興;吳云智 | 申請(qǐng)(專利權(quán))人: | 廣西大學(xué) |
| 主分類號(hào): | G06Q10/06 | 分類號(hào): | G06Q10/06;G06Q50/06;G06N3/08 |
| 代理公司: | 南寧啟創(chuàng)知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 45122 | 代理人: | 謝美萱 |
| 地址: | 530004 廣西*** | 國(guó)省代碼: | 廣西;45 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 強(qiáng)化學(xué)習(xí)算法 博弈 對(duì)抗 滾動(dòng) 強(qiáng)化學(xué)習(xí) 智能體 網(wǎng)絡(luò) 經(jīng)濟(jì)利益最大化 價(jià)格動(dòng)態(tài) 能源系統(tǒng) 市場(chǎng)供求 網(wǎng)絡(luò)算法 多區(qū)域 供冷 供氫 供暖 能源 電氣化 供氣 失衡 互聯(lián) 均衡 測(cè)試 供電 交通 探索 | ||
本發(fā)明提供一種混合深度對(duì)抗網(wǎng)絡(luò)滾動(dòng)強(qiáng)化學(xué)習(xí)博弈策略,該策略能解決目前能源分布和市場(chǎng)供求失衡問題,最大限度地實(shí)現(xiàn)供需均衡。本發(fā)明提出的混合深度對(duì)抗網(wǎng)絡(luò)滾動(dòng)強(qiáng)化學(xué)習(xí)算法框架,以基于深度對(duì)抗網(wǎng)絡(luò)算法的智能體與多個(gè)基于強(qiáng)化學(xué)習(xí)算法的智能體進(jìn)行博弈,并在多區(qū)域互聯(lián)的能源系統(tǒng)中進(jìn)行測(cè)試。本發(fā)明提出一種混合深度對(duì)抗網(wǎng)絡(luò)滾動(dòng)強(qiáng)化學(xué)習(xí)算法來探索一種長(zhǎng)期的價(jià)格動(dòng)態(tài)引導(dǎo)策略,動(dòng)態(tài)地維持供電、供氣、供暖、供冷、供氫和電氣化交通等能源產(chǎn)消者之間的經(jīng)濟(jì)利益最大化。
技術(shù)領(lǐng)域
本發(fā)明屬于電力市場(chǎng)調(diào)度與優(yōu)化領(lǐng)域,涉及一種多智能體系統(tǒng)的博弈算法,適用于電力市場(chǎng)調(diào)度與優(yōu)化。
背景技術(shù)
隨著能源的枯竭和環(huán)境的惡化,人類逐漸轉(zhuǎn)變能源的利用方式。美國(guó)著名學(xué)者杰里米·里夫金在其著作《第三次工業(yè)革命》中第一次提出能源互聯(lián)網(wǎng)。能源互聯(lián)網(wǎng)以電力網(wǎng)絡(luò)為核心,聯(lián)合石油網(wǎng)絡(luò)、天然氣網(wǎng)絡(luò)等能源節(jié)點(diǎn),從而大規(guī)模利用和共享各種資源。但是,在實(shí)際的資源分配中,人們過于注重整體利益,從而極易出現(xiàn)效益分配不合理甚至導(dǎo)致區(qū)域利益犧牲,進(jìn)而影響整個(gè)區(qū)域。
為解決區(qū)域能源分配不合理的問題,從而實(shí)現(xiàn)區(qū)域經(jīng)濟(jì)利益最大化,需采取合作博弈的方法。在多區(qū)域互聯(lián)的系統(tǒng)中,能源產(chǎn)消者與能源服務(wù)商進(jìn)行博弈,從而協(xié)調(diào)各決策主體平衡和優(yōu)化各方利益。但是,實(shí)際區(qū)域往往注重于個(gè)體經(jīng)濟(jì)利益,無法找到納什均衡解。
近年來,隨著科技的進(jìn)步,人工智能得到快速的發(fā)展,而生成對(duì)抗網(wǎng)絡(luò)無疑是當(dāng)前人工智能界最為重要的技術(shù)之一。因?yàn)樯蓪?duì)抗網(wǎng)絡(luò)具有出色的生成能力,所以在各類圖像和自然語言領(lǐng)域具有較大的優(yōu)勢(shì)。生成對(duì)抗網(wǎng)絡(luò)由生成器與判別器構(gòu)成,通過無監(jiān)督學(xué)習(xí)的訓(xùn)練方式,生成器與判別器兩者相互對(duì)抗共同提高。生成對(duì)抗網(wǎng)絡(luò)訓(xùn)練的目的是為找到一個(gè)納什均衡解,從而實(shí)現(xiàn)各方利益最大化。
深度學(xué)習(xí)算法與強(qiáng)化學(xué)習(xí)算法、蒙特卡羅樹搜索算法結(jié)合的算法在圍棋方面的應(yīng)用受到了諸多學(xué)者的關(guān)注。深度學(xué)習(xí)能學(xué)習(xí)數(shù)據(jù)的輸入和輸出關(guān)系,并且速度較快,多智能體之間的博弈可通過機(jī)器學(xué)習(xí)算法解決,因此深度學(xué)習(xí)能被應(yīng)用于電力系統(tǒng)的電力市場(chǎng)問題中。強(qiáng)化學(xué)習(xí)算法是一種無需模型的算法,且在外部的擾動(dòng)下,能獲得較高的控制性能指標(biāo),能適應(yīng)于未知環(huán)境的控制。強(qiáng)化學(xué)習(xí)算法與博弈思想相結(jié)合,可使得各區(qū)域的智能體多能互補(bǔ),實(shí)現(xiàn)區(qū)域的利益最大化。
為滿足各個(gè)區(qū)域的控制策略最優(yōu),同時(shí)滿足各區(qū)域的控制性能、經(jīng)濟(jì)性和環(huán)保等多方面最優(yōu),本發(fā)明引入了生成對(duì)抗網(wǎng)絡(luò)思想,通過博弈的思想使得區(qū)域能源多能互補(bǔ)。但是,針對(duì)電力系統(tǒng)的多區(qū)域多能源博弈問題,傳統(tǒng)的基于生成對(duì)抗網(wǎng)絡(luò)的方法,難以找到納什均衡點(diǎn),或者生成的樣本與真實(shí)數(shù)據(jù)相差甚大。為此,本發(fā)明提出一種混合深度對(duì)抗網(wǎng)絡(luò)滾動(dòng)強(qiáng)化學(xué)習(xí)博弈算法,以基于深度對(duì)抗網(wǎng)絡(luò)算法的智能體與多個(gè)基于強(qiáng)化學(xué)習(xí)的智能體進(jìn)行博弈,來探索一種長(zhǎng)期的價(jià)格動(dòng)態(tài)引導(dǎo)策略,動(dòng)態(tài)地維持供電、供氣、供暖、供冷、供氫和電氣化交通等能源產(chǎn)消者之間的經(jīng)濟(jì)利益最大化。
發(fā)明內(nèi)容
本發(fā)明提出一種混合深度對(duì)抗網(wǎng)絡(luò)滾動(dòng)強(qiáng)化學(xué)習(xí)博弈策略。該策略是針對(duì)多智能系統(tǒng)的博弈方法,以基于深度對(duì)抗網(wǎng)絡(luò)算法的智能體與多個(gè)基于強(qiáng)化學(xué)習(xí)算法的智能體進(jìn)行博弈。
能夠感知環(huán)境的自治智能體,可通過強(qiáng)化學(xué)習(xí)來選擇其目標(biāo)的最優(yōu)動(dòng)作。在預(yù)訓(xùn)練過程中,每個(gè)能源產(chǎn)消者都采用了各自的強(qiáng)化學(xué)習(xí)算法去訓(xùn)練屬于自身的被動(dòng)引導(dǎo)策略。其中,強(qiáng)化學(xué)習(xí)算法中強(qiáng)化矩陣Q和概率矩陣P的更新方式可如下表示:
式中,s表示能源產(chǎn)消者在系統(tǒng)環(huán)境所處的當(dāng)前時(shí)刻,s′表示能源產(chǎn)消者在系統(tǒng)環(huán)境所處的下一時(shí)刻狀態(tài),α和β分別表示強(qiáng)化學(xué)習(xí)的學(xué)習(xí)率和概率分布因子,1/|A|表示概率矩陣P(s,a)中每個(gè)元素的初始值,在概率矩陣范圍是P(s,a)∈[0,1]內(nèi),|A|為動(dòng)作集A中動(dòng)作的數(shù)量,γ為強(qiáng)化學(xué)習(xí)算法的折扣因子,R(s,s′,a)為在狀態(tài)s的情況下給出動(dòng)作a后轉(zhuǎn)移到狀態(tài)s′的立即獎(jiǎng)勵(lì)值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣西大學(xué),未經(jīng)廣西大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910554358.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測(cè)或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項(xiàng)目管理,例如組織、規(guī)劃、調(diào)度或分配時(shí)間、人員或機(jī)器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉(cāng)儲(chǔ)、裝貨、配送或運(yùn)輸;存貨或庫(kù)存管理,例如訂貨、采購(gòu)或平衡訂單
G06Q10-10 .辦公自動(dòng)化,例如電子郵件或群件的計(jì)算機(jī)輔助管理
- 一種基于改進(jìn)強(qiáng)化學(xué)習(xí)的集中式認(rèn)知無線電頻譜分配方法
- 一種人工深度情感博弈強(qiáng)化學(xué)習(xí)的智能發(fā)電控制方法
- 基于利用梯度的多目標(biāo)強(qiáng)化學(xué)習(xí)算法的自動(dòng)控制方法
- 一種用于UUV集群的強(qiáng)化學(xué)習(xí)算法研究平臺(tái)
- 一種基于深度強(qiáng)化學(xué)習(xí)的機(jī)械臂控制模型構(gòu)建方法
- 一種基于示范數(shù)據(jù)強(qiáng)化學(xué)習(xí)技術(shù)的水下航行器自主上浮控制方法
- 一種基于進(jìn)化強(qiáng)化學(xué)習(xí)的機(jī)器人對(duì)抗方法
- 基于分布式強(qiáng)化學(xué)習(xí)的優(yōu)化控制系統(tǒng)和控制方法
- 一種模型訓(xùn)練和控制無人設(shè)備的方法及裝置
- 一種基于強(qiáng)化學(xué)習(xí)的間隔重復(fù)調(diào)度方法
- 博弈數(shù)據(jù)分析方法及裝置
- 一種在即時(shí)通訊工具中實(shí)現(xiàn)博弈活動(dòng)的方法
- 面向多智能體同步博弈的建模方法及動(dòng)作預(yù)測(cè)系統(tǒng)
- 一種多主體博弈的增量配電網(wǎng)源網(wǎng)荷協(xié)同規(guī)劃方法
- 一種基于三方演化博弈的配電網(wǎng)決策方法、裝置和設(shè)備
- 對(duì)抗環(huán)境下多無人機(jī)協(xié)同目標(biāo)分配方法及系統(tǒng)
- 目標(biāo)均衡博弈的處理方法和裝置
- 一種業(yè)務(wù)執(zhí)行方法、裝置及其相關(guān)設(shè)備
- 用于云原生應(yīng)用資源調(diào)度的博弈優(yōu)化方法及其系統(tǒng)
- 一種機(jī)器博弈輔助決策方法及系統(tǒng)
- 農(nóng)業(yè)信息對(duì)抗資源目標(biāo)規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對(duì)抗資源模糊規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對(duì)抗資源線性規(guī)劃最優(yōu)分配方法
- 基于聚類數(shù)據(jù)挖掘的對(duì)抗行為搜索算法
- 面向多種對(duì)抗圖片攻擊的協(xié)同免疫防御方法
- 一種自適應(yīng)對(duì)抗強(qiáng)度的對(duì)抗訓(xùn)練方法
- 對(duì)抗攻擊模型的訓(xùn)練方法及裝置
- 對(duì)抗樣本的生成方法和裝置
- 多樣本對(duì)抗擾動(dòng)生成方法、裝置、存儲(chǔ)介質(zhì)和計(jì)算設(shè)備
- 一種無人集群協(xié)同博弈對(duì)抗的控制方法及系統(tǒng)
- 滾動(dòng)滑動(dòng)件及滾動(dòng)裝置
- 滾動(dòng)滑動(dòng)件及滾動(dòng)裝置
- 滾動(dòng)部件、滾動(dòng)軸承和滾動(dòng)部件的制造方法
- 滾動(dòng)構(gòu)件和滾動(dòng)軸承
- 滾動(dòng)裝置、滾動(dòng)方法、滾動(dòng)程序以及集成電路
- 滾動(dòng)裝置、滾動(dòng)裝置包裝體及滾動(dòng)模組
- 滾動(dòng)裝置、滾動(dòng)裝置包裝體及滾動(dòng)模組
- 滾動(dòng)軸承、滾動(dòng)裝置以及滾動(dòng)裝置的制造方法
- 滾動(dòng)體間隔滾動(dòng)軸承
- 滾動(dòng)件和具有滾動(dòng)件的滾動(dòng)裝置





