[發(fā)明專利]一種基于強化學(xué)習(xí)的火電燃燒優(yōu)化方法有效
| 申請?zhí)枺?/td> | 201810449729.5 | 申請日: | 2018-05-11 |
| 公開(公告)號: | CN108826354B | 公開(公告)日: | 2019-07-12 |
| 發(fā)明(設(shè)計)人: | 張衛(wèi)東;鄒羅葆;程引;房方;尹浩 | 申請(專利權(quán))人: | 上海交通大學(xué) |
| 主分類號: | F23N5/00 | 分類號: | F23N5/00 |
| 代理公司: | 上海科盛知識產(chǎn)權(quán)代理有限公司 31225 | 代理人: | 楊宏泰 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 決策問題 強化學(xué)習(xí) 燃燒優(yōu)化 火電 歷史數(shù)據(jù)信息 普遍適用性 綜合指標 定義狀態(tài) 火力發(fā)電 快速響應(yīng) 燃燒過程 數(shù)據(jù)信息 線性加權(quán) 中間狀態(tài) 矢量 能力強 求解 預(yù)測 構(gòu)建 可控 跳轉(zhuǎn) 獎勵 網(wǎng)絡(luò) | ||
本發(fā)明涉及一種基于強化學(xué)習(xí)的火電燃燒優(yōu)化方法,包括以下步驟:1)獲取火力發(fā)電燃燒過程中的相關(guān)變量,定義Mt={it,st,pt}為t時刻的數(shù)據(jù)信息;2)構(gòu)建預(yù)測網(wǎng)絡(luò),根據(jù)最近兩次歷史數(shù)據(jù)信息Mt?1、Mt以及下一時刻的可控輸入it+1預(yù)測下一時刻的中間狀態(tài)量st+1和性能指標pt+1;3)定義St={Mt?2,Mt?1,it}為馬爾科夫決策問題在t時刻的狀態(tài),以輸入對應(yīng)的增量矢量作為馬爾科夫決策問題的動作At,并且以前后狀態(tài)的線性加權(quán)綜合指標KPI的增量ΔCIt作為馬爾科夫決策問題的獎勵Rt,并定義狀態(tài)跳轉(zhuǎn);4)采用深度決定性策略梯度對馬爾科夫決策問題進行求解。與現(xiàn)有技術(shù)相比,本發(fā)明具有泛化能力強、普遍適用性、快速響應(yīng)等優(yōu)點。
技術(shù)領(lǐng)域
本發(fā)明涉及火力發(fā)電技術(shù)領(lǐng)域,尤其是涉及一種基于強化學(xué)習(xí)的火電燃燒優(yōu)化方法。
背景技術(shù)
在系統(tǒng)穩(wěn)定的前提下實現(xiàn)最大程度上的優(yōu)化,是當(dāng)前火電研究所關(guān)注的重要問題。小范圍內(nèi)的優(yōu)化控制效果不顯著,擴大優(yōu)化范圍又常導(dǎo)致燃燒系統(tǒng)不穩(wěn)定問題。此外,可控輸入的高維度導(dǎo)致優(yōu)化問題求解極為困難,如何在滿足約束的范圍內(nèi)實時計算下一時刻的輸入變量,從而使系統(tǒng)綜合性能指標最優(yōu)成為一道難題。
從實際的控制角度上分析,由于燃燒過程極為復(fù)雜,無法構(gòu)建完全準確的模型,導(dǎo)致連續(xù)的優(yōu)化控制極為困難。一種常用的方法是采用離散化優(yōu)化問題,構(gòu)建近似模型后采用固定時間步長的離散化控制。
當(dāng)前有許多優(yōu)化算法都被運用于求解燃燒優(yōu)化的輸入控制問題,總體而言可將現(xiàn)有研究分為以下三類:
啟發(fā)式算法:常應(yīng)用于燃燒優(yōu)化的算法有蟻群算法、模擬退火算法等。啟發(fā)式算法計算速度快,通用靈活、內(nèi)存占用少且全局搜索能力強,目前在燃燒優(yōu)化領(lǐng)域應(yīng)用比較廣泛,而且可與智能算法、數(shù)學(xué)優(yōu)化類算法結(jié)合使用。但這類方法往往缺乏有效的迭代終止條件,難以找到問題的最優(yōu)解。
數(shù)學(xué)優(yōu)化類算法:根據(jù)燃燒機理建模,用數(shù)學(xué)方程描述燃燒過程,以解析方式求解最優(yōu)指標。但由于燃燒過程包含了極多復(fù)雜反應(yīng)過程,往往這類方法只應(yīng)用于部分可知反應(yīng)的模型構(gòu)建,只關(guān)注某個指標的優(yōu)化。機理建模的常用方法有白箱模型、灰箱模型。這一類方法的優(yōu)點在于模型完全確定可知,優(yōu)化控制求解準確,但缺點也很明顯,目標函數(shù)往往是非凸函數(shù),需要進一部轉(zhuǎn)化構(gòu)建,而且迭代算法常無法保證收斂性。
智能算法:被應(yīng)用于燃燒優(yōu)化的智能算法有蟻群算法、遺傳算法、進化算法等。其中遺傳算法是最常用的一種,一般采用將多維輸入進行二進制編碼,以需要優(yōu)化的KPI指標作適應(yīng)度函數(shù),直接對優(yōu)化問題進行求解。但智能算法的計算量大,所需時間較長,而控制信號輸出的間隔不能小于一次離散優(yōu)化計算的時長,這意味著該方法只能實現(xiàn)階梯狀離散控制。根據(jù)實際操作,智能算法要求控制信號輸出間隔數(shù)量級以分鐘計。
總體而言,現(xiàn)有的燃燒優(yōu)化算法只能適應(yīng)于部分燃燒過程的單一指標進行優(yōu)化,對于高維控制輸入變量的尋優(yōu)尚沒有快速有效的方法。因此該領(lǐng)域的一個主要研究方向是尋找能夠快速解決高維問題的全局優(yōu)化實時算法。
發(fā)明內(nèi)容
本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種基于強化學(xué)習(xí)的火電燃燒優(yōu)化方法。
本發(fā)明的目的可以通過以下技術(shù)方案來實現(xiàn):
一種基于強化學(xué)習(xí)的火電燃燒優(yōu)化方法,包括以下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810449729.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種決策問題網(wǎng)絡(luò)咨詢系統(tǒng)
- 一種決策問題智能分析處理方法
- 一種融合案例推理的服務(wù)外包智能決策方法
- 一種基于VIKOR的區(qū)間數(shù)多指標決策方法
- 一種衛(wèi)勤決策綜合集成系統(tǒng)
- 用于自動駕駛車輛的基于規(guī)劃反饋的決策改進系統(tǒng)
- 一種垃圾回收航運物流網(wǎng)絡(luò)構(gòu)建方法
- 一種基于標準化企業(yè)數(shù)據(jù)的決策方法、系統(tǒng)及電子設(shè)備
- 智慧專業(yè)化區(qū)域管理系統(tǒng)
- 一種基于直覺梯形模糊和灰色關(guān)聯(lián)的機床可靠性分配方法
- 學(xué)習(xí)裝置和學(xué)習(xí)方法
- 一種人工深度情感博弈強化學(xué)習(xí)的智能發(fā)電控制方法
- 用于強化學(xué)習(xí)的方法和設(shè)備
- 一種深度強化學(xué)習(xí)模型的組合方法、裝置及計算機設(shè)備
- 基于時空強化學(xué)習(xí)的跨模態(tài)視頻時刻定位方法
- 基于深度強化學(xué)習(xí)的寬帶無線通信自主選頻方法及系統(tǒng)
- 基于人工智能深度強化學(xué)習(xí)的航班艙位控制方法
- 面向深度強化學(xué)習(xí)對抗攻擊的模型增強防御方法
- 組件化的強化學(xué)習(xí)模型處理方法、系統(tǒng)、設(shè)備和存儲介質(zhì)
- 基于強化學(xué)習(xí)的智能決策方法及系統(tǒng)





