[發明專利]基于深度強化學習混合動作空間的氧氣系統調度優化方法在審
| 申請號: | 202310001606.6 | 申請日: | 2023-01-03 |
| 公開(公告)號: | CN115965213A | 公開(公告)日: | 2023-04-14 |
| 發明(設計)人: | 李麗娟;楊雪;王歡;許曉偉;張印強 | 申請(專利權)人: | 南京工業大學 |
| 主分類號: | G06Q10/0631 | 分類號: | G06Q10/0631;G06Q10/04;G06Q50/04;G06N3/048;G06N3/092 |
| 代理公司: | 湖南澤達信專利代理事務所(普通合伙) 43284 | 代理人: | 胡仿 |
| 地址: | 211816 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 混合 動作 空間 氧氣 系統 調度 優化 方法 | ||
1.一種基于深度強化學習混合動作空間的氧氣系統調度優化方法,包括如下步驟:
步驟一、氧氣系統調度優化
1.1確定氧氣系統調度優化問題:鋼鐵企業氧氣系統分為三個子系統:氧氣發生系統、存儲系統和使用系統;安排系統中各設備的運行方式和生產水平,在滿足用戶氧氣需求的同時,提高氧氣利用率,實現利益最大化;
1.2優化目標
1.3約束條件
步驟二、基于drl的方法
步驟三、結果和分析
為驗證HAC算法用于氧氣系統調度優化的有效性與優越性,首先給出了采用HAC算法調度與實際生產的對比實驗結果,并對所提出的算法結構進行分析;
3.1算法驗證與分析
混合actor-critic算法用神經網絡擬合強化學習策略函數和狀態動作價值函數,具有3個神經網絡,即離散actor網絡、連續actor網絡和critic網絡,將神經網絡隱藏層層數設為2層,每層設置200個神經元,隱藏層的激活函數均為負斜率為0.01的ReLU函數,輸出層為全連接層;采用深度學習常用思想選取超參數然后根據實際訓練數據進行試錯調整;
3.2算法結構分析對比
設置了額外獎勵函數,考慮峰時谷時設備用電量對整個調度結果的影響;為驗證其合理性,將原算法與不設置額外獎勵的算法分別對氧氣系統進行調度優化,將調度優化后的策略進行分析計算,按所提出的目標函數計算各自經濟指標進行比較;不設置額外獎勵函數,峰谷時設備用電量差別較小,整體經濟效益平穩低于原算法調度結果;然而用原算法調度后,峰時機器消耗電量低于谷時,整體經濟效益更高,比不設置額外獎勵函數平均經濟效益多24%;
此外,混合actor-critic算法建立了關聯矩陣D,表明兩個actor網絡之間的耦合關系;為驗證設置關聯矩陣的必要性,對HAC算法去掉關聯矩陣后進行氧氣系統調度策略求解;
3.3不同算法結果對比
將混合actor-critic算法與MP-DQN算法、P-DQN算法以及PADDPG算法進行對比;混合actor-critic算法獎勵曲線約在10000回合達到收斂且獎勵值最高,MP-DQN算法與P-DQN算法收斂時間較長并且獎勵值低于HAC算法,而PADDPG算法雖在收斂時間上較快但平均獎勵值過低無法滿足調度優化需求。
2.根據權利要求1所述的一種基于深度強化學習混合動作空間的氧氣系統調度優化方法,其特征在于,所述步驟1.2包括:
以氧氣系統的經濟指標F為調度優化目標,考慮外售液氧收入、各設備用電消耗及氧氣釋放損失,其數學表達式為:
F=Jp-E-λ·Jr?????????????(1)
其中,JP是氧氣系統液氧外售收入,E是設備用電產生的費用,Jr是氧氣系統釋放損失;
氧氣系統液氧外售收入JP為:
其中f液氧單價,為外售的液氧量;為第i個制氧機在t時刻液氧產量,為第j個液化器t時刻液化量,為第g個氣化器t時刻氣化量;Δti、Δtj、Δtg為各制氧機、液化器、氣化器開啟時長,αi、βj和ρg分別表示制氧機、液化器和氣化器的設備開啟與否,離散化為0-1變量即:
βj和ρg與αi類似;
設備用電成本E為:
為第i個制氧機在t時刻氣態氧產量,和分別為制氧機、液化器和氣化器用電成本,Hi(t)、Cj(t)和Bg(t)為各制氧機、液化器和氣化器產量與耗電量的對應函數,E(t)為實際電價;
氧氣系統釋放損失Jr為:
氧氣單價,氧氣消散量,是在t時刻氧氣儲存量,在t時刻氧氣使用量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京工業大學,未經南京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310001606.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:型芯裝置及模具
- 下一篇:一種水稻專用全生物降解雙層地膜及其制備方法
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





